爬虫实战【12】使用cookie登陆豆瓣电影以及获取单个电影的所有短评

最新推荐文章于 2023-07-16 11:01:49 发布

果冻果

最新推荐文章于 2023-07-16 11:01:49 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rainDG/article/details/97331353

版权

昨天我们已经实现了如何抓取豆瓣上的热门电影信息，虽然不多，只有几百，但是足够我们进行分析了。
今天我们来讲一下如何获取某一部电影的所有短评论信息，并保存到mongodb中。

反爬虫

豆瓣设置的反爬虫机制是比较简单的，我们可以通过selenium模拟浏览器登陆这种终极办法来绕过，但是更加有效率的方法是设置请求头信息的cookie，是豆瓣认为在访问的就是一个用户，而不是机器。
【插入图片，我的cookie】

我们首先要登陆自己的豆瓣账户，随便点击一个评论页面，在请求信息里面，找到cookie，保存下来。

分析评论页

我们先看一下评论页面的url特点，或者说请求网址的构成。
https://movie.douban.com/subject/26378579/comments?start=20&limit=20&sort=new_score&status=P&percent_type=
一看上面的url，我们就能分析出来这又是一个参数传递的url，前面的地址是这部电影的url，我们通过昨天的学习，应该能够得到并且已经保存在数据库中了。
【插入图片，评论url参数】

改变start的值，就可以得到很多个页面了。

值得注意的是，评论并不是通过ajax加载的，而是在html的响应中存在的，我们解析url的响应内容，就可以获取评论。我还是喜欢用最方便的PyQuery来解析源代码。

然后我们分析一下评论的源代码构成：
【插入图片，所有评论的源码】

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。