爬虫实战（一）利用scrapy爬取豆瓣华语电影

最新推荐文章于 2024-08-06 04:17:42 发布

kogi

最新推荐文章于 2024-08-06 04:17:42 发布

阅读量5.7k

点赞数 6

分类专栏：爬虫文章标签： python 爬虫豆瓣电影

本文链接：https://blog.csdn.net/weixin_43004311/article/details/82962159

版权

本文介绍了如何使用scrapy爬取豆瓣华语电影，包括爬取思路、分析、实现过程，以及反反爬虫策略。通过解析页面获取电影信息，并存储到MongoDB数据库，总计爬取了33133部电影。

摘要由CSDN通过智能技术生成

爬虫第一个项目是爬取豆瓣华语电影，后面将对这部分数据进行分析。

本文也是发表于『运筹OR帷幄』微信公众号的《用数据带你了解电影行业—华语篇》的爬虫介绍篇。

1. 爬取思路

在观察了豆瓣每个影片的链接地址后，写下了主要思路：
（1）在豆瓣电影的选片页面，筛选所有华语（即中国大陆、香港、台湾）的影片，并获取其id；
（2）通过id构建并爬取该影片链接，获得其导演、主演、类型、片长、评分等信息。

2. 爬取分析

那这个思路能否实现呢？我们可以打开chrome，打开豆瓣影视筛选的页面，筛选电影、中国大陆。首先查看网页源代码，可以发现这个页面是JavaScript实现的动态页面。如果直接用requests等库来抓取原页面，是无法获得数据的。那接着分析网页后台向接口发送的请求，看是否有Ajax请求。键盘快捷键f12调出开发者工具，选择Network，重新刷新页面，在Fillter输入框下面的筛选中选择XHR，筛选出Ajax请求。可以发现有个new_search_subject开头的请求，点击Preview的选项，发现这就是页面上显示的影片信息。双击该请求，查看具体的数据。
爬虫思路-1
可以看到页面数据是JSON格式，且没有加密，适合通过模拟Ajax请求来获取数据。下面分析该请求的参数：
https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1&start=0&countries=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86

sort是排序方式，range是评分数范围，tags、countries是筛选的参数，而start是控制页面的参数。每个页面有20部电影，每部电影有标题、id等信息。页数从0开始，每隔20整体变化一次。不过看不到最大的页数，只能先尝试大的数字，看最多能到多少页。大致看下，中国大陆、香港目前最大是9960，台湾是6500。

获取id解决了，接着来看单个页面，比如https://movie.douban.com/subject/26752088/。