![8496dd191a623a08e9af34f01b5c6c87.png](https://img-blog.csdnimg.cn/img_convert/8496dd191a623a08e9af34f01b5c6c87.png)
python 模拟登录豆瓣爬取影评
- 需求分析
- 功能分析
- 功能实现
- 登录豆瓣
- 登录接口分析
- 这个Session是我们常说的session吗
- 批量爬取评论
上一篇文章我们爬取了豆瓣的中的电视剧《隐秘的角落》电视剧的短评,在爬取的过程中也许你会发现,headers信息中的cookie信息是我登陆后设置进去的,那么也给了我一些思路,是否可以通过模拟登录豆瓣之后来保存cookie呢?
说干就干!!
此教程仅用于学习,不得商业获利!如有侵害任何公司利益请告知删除!
cookie反爬虫是指服务器通过校验请求头中的cookie值来区分正常的用户和爬虫程序的手段之一。
需求分析
模拟登录豆瓣,爬取影评并做词云分析
功能分析
豆瓣在没有登录的情况下,根据之前的情况你会发现,它只允许查看前200条的数据。登录之后就可以正常访问了。
功能实现
- 模拟登录豆瓣,实现requests库保存cookie信息
- 批量抓取数据
- 词云展示