python 豆瓣评论数据分析_Python数据可视化分析--豆瓣电影Top250

最新推荐文章于 2024-06-08 17:15:23 发布

熊比哒

最新推荐文章于 2024-06-08 17:15:23 发布

阅读量2.3k

点赞数 6

文章标签： python 豆瓣评论数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35786770/article/details/113497170

版权

Python数据分析–豆瓣电影Top250

利用Python爬取豆瓣电影TOP250并进行数据分析，对于众多爬虫爱好者，应该并不陌生。很多人都会以此作为第一个练手的小项目。当然这也多亏了豆瓣的包容，没有加以太多的反爬措施，对新手比较友好。

手动声明

版权声明：本文为博主原创文章，创作不易

本文链接：https://blog.csdn.net/qq_45176548/article/details/112735850

数据爬取

翻页操作

第一页:https://movie.douban.com/top250

第二页：https://movie.douban.com/top250?start=25&filter=

第三页：https://movie.douban.com/top250?start=50&filter=

观察可知，我们只需要修改start参数即可

反扒说明

推荐阅读:

通过headers字段来反爬

headers中有很多字段，这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫

1.1 通过headers中的User-Agent字段来反爬

反爬原理：爬虫默认情况下没有User-Agent，而是使用模块默认设置

解决方法：请求之前添加User-Agent即可；更好的方式是使用User-Agent池来解决(收集一堆User-Agent的方式，或者是随机生成User-Agent)

1.2 通过referer字段或者是其他字段来反爬

反爬原理：爬虫默认情况下不会带上referer字段，服务器端通过判断请求发起的源头，以此判断请求是否合法

解决方法：添加referer字段

1.3 通过cookie来反爬

反爬原因：通过检查cookies来查看发起请求的用户是否具备相应权限，以此来进行反爬

解决方案：进行模拟登陆，成功获取cookies之后在进行数据爬取

通过请求参数来反爬

请求参数的获取方法有很多，向服务器发送请求，很多时候需要携带请求参数，通常服务器端可以通过检查请求参数是否正确来判断是否为爬虫

2.1 通过从html静态文件中获取请求数据(github登录数据)

反爬原因：通过增加获取请求参数的难度进行反爬

解决方案：仔细分析抓包得到的每一个包，搞清楚请求之间的联系

2.2 通过发送请求获取请求数据

反爬原因：通过增加获取请求参数的难度进行反爬

解决方案：仔细分析抓包得到的每一个包，搞清楚请求之间的联系，搞

最低0.47元/天解锁文章

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
python 豆瓣评论数据分析_Python数据可视化分析--豆瓣电影Top250

Python数据分析–豆瓣电影Top250 利用Python爬取豆瓣电影TOP250并进行数据分析，对于众多爬虫爱好者，应该并不陌生。很多人都会以此作为第一个练手的小项目。当然这也多亏了豆瓣的包容，没有加以太多的反爬措施，对新手比较友好。手动声明版权声明：本文为博主原创文章，创作不易本文链接：https://blog.csdn.net/qq_45176548/article/details/112...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。