python爬虫——豆瓣小组，查询某用户在小组中发布的所有帖子

最新推荐文章于 2021-06-21 13:01:48 发布

大方方sf

最新推荐文章于 2021-06-21 13:01:48 发布

阅读量2.1w

点赞数 13

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_38840948/article/details/107922119

版权

我学习的思路，一般就是技术根据技术贴，技术视频学习，而经验要从实战中获得。在生活中，常常动脑筋，把问题用自己掌握的技能来解决，既能巩固自己的技术，学习经验，又能有成就感，一举两得。
最近出去玩，经常翻豆瓣，在相关小组里获取需要的信息。有一个用户发的帖子是寻找队友，内容是什么记不太清了，但是过了一两天我好想又看到了这个人发的寻找队友的帖子，只记得跟我前两天看到的内容不一致，于是就很好奇，这个人多次发帖怎么发的内容差距蛮大的，不是骗子吧？于是我想着把这个人在这个小组中发的所有帖子找出来。然而豆瓣小组没有按照发布人搜索帖子的功能，于是，我就搬出了python的爬虫技术。（哈哈哈，说的高大上一些，装个小~）

代码前准备

用网页登录豆瓣，了解豆瓣的接口实现。打开f12，观察了几个页面以及接口之后，发现了如下接口：
在这里插入图片描述

在该接口的响应数据里，我看到了一条条的帖子的信息。（原谅我不知道这接口用的什么语言，跟我平时做的项目相差较多。工作中的项目，后端数据和前端是分离开的，而不像这样，直接以接口的形式，将数据和前端一起返回。我还需要深入学习）
在这里插入图片描述
看到这两个信息，我心中大概有了思路：1、调用该接口，获取所有帖子信息；2、在响应的数据中，查询出指定用户发布的帖子。

编写代码

首先，通过分析，得出接口“https://www.douban.com/group/586674/discussion?start=550”的基本组成。586674为小组的id（586674为生活组id），start=550 是每页查询的开始条数，每页默认25条，因此start是一个间隔为25的数据。
于是我开始敲代码：

import requests
# 生活组
header={
   
"Cookie": """__utmv=30149280.18928; douban-fav-remind=1; bid=1_33bHyMNKk; __yadk_uid=pulR7OghaIPqmJRPIxe3KhEJxut2tYer; trc_cookie_storage=taboola%2520global%253Auser-id%3Db09d96dd-31b1-4593-8d1c-4c578400c1e3-tuct2a38ca8; ll="128517"; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1597026264%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DgQBOGEXypqcfy3ThMRX9I1KHKVdC3gJqbRM52Iq8v62ToQLgvcsEytB3SgJVAbR0%26wd%3D%26eqid%3D8d498001003b7191000000035f30afd5%22%5D; _pk_ses.100001.8cb4=*; __utma=30149280.637221786.1522650378.1573119693.1597026266.9; __utmc=30149280; __utmz=30149280.1597026266.9.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; dbcl2="189284129:FDZaIXXKmBU"; ck=LPqG; push_doumail_num=0; douban-profile-remind=1; __gads=ID=3073429e68e6a294:T=1597026329:S=ALNI_MZtbg-6aYKJGzPAR1079Z9BvbTcKg; ap_v=0,6.0; push_noty_num=0; _pk_id.100001.8cb4=101ed8a4922703c1.1522650376.9.1597027280.1573119666.; __utmb=30149280.167.7.1597027140424"""
}
url = "https://www.douban.

最低0.47元/天解锁文章

大方方sf

关注

13
点赞
踩
75

收藏

觉得还不错? 一键收藏
11
评论
python爬虫——豆瓣小组，查询某用户在小组中发布的所有帖子

我学习的思路，一般就是技术根据技术贴，技术视频学习，而经验要从实战中获得。在生活中，常常动脑筋，把问题用自己掌握的技能来解决，既能巩固自己的技术，学习经验，又能有成就感，一举两得。最近出去玩，经常翻豆瓣，在相关小组里获取需要的信息。有一个用户发的帖子是寻找队友，内容是什么记不太清了，但是过了一两天我好想又看到了这个人发的寻找队友的帖子，只记得跟我前两天看到的内容不一致，于是就很好奇，这个人多次发帖怎么发的内容差距蛮大的，不是骗子吧？于是我想着把这个人在这个小组中发的所有帖子找出来。然而豆瓣小组没有按照发布
复制链接

扫一扫