python爬取豆瓣小组_python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name...

weixin_39830323

于 2020-12-07 10:22:22 发布

阅读量268

点赞数

文章标签： python爬取豆瓣小组

需求：爬取豆瓣小组所有话题(话题title，内容，作者，发布时间)，及回复(最佳回复，普通回复，回复_回复，翻页回复，0回复)

解决：1. 先爬取小组下，所有的主题链接，通过定位nextpage翻页获取总过700+条话题；

2. 访问700+ 链接，在内页+start=0中，获取话题相关的四部分(话题title，内容，作者，发布时间)，及最佳回复、回复；

3. 在2的基础上，判断是否有回复，如果有回复才进一步判断是否有回复翻页，回复翻页通过nextpage 获取start=100、start=200的页；

4. 进入下一个爬取函数，将抓取的回复续写到2 中的文件；

解决思路：

Before：一开始建立2个文件，article.txt 用来存储所有话题相关的内容(700+话题、作者信息)；

同时，建立以title命名的回复文件；

After:统一建立以话题title命名的文章，先写入文章相关内容，再续写回复；这样方便读取；

遇到的坑：

1. 要获取某个div下直接的text，div.span下的text，div.h下的text：

——有2个解决方法：

A. 通过xpath

最低0.47元/天解锁文章

weixin_39830323

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬取豆瓣小组_python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name...

需求：爬取豆瓣小组所有话题(话题title，内容，作者，发布时间)，及回复(最佳回复，普通回复，回复_回复，翻页回复，0回复)解决：1. 先爬取小组下，所有的主题链接，通过定位nextpage翻页获取总过700+条话题；2. 访问700+ 链接，在内页+start=0中，获取话题相关的四部分(话题title，内容，作者，发布时间)，及最佳回复、回复；3. 在2的基础上，判断是否有回复，如果有回复才...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。