基于Scrapy框架的豆瓣影评及评分爬取

最新推荐文章于 2024-07-12 09:11:16 发布

MachinePanda

最新推荐文章于 2024-07-12 09:11:16 发布

阅读量2.7k

点赞数 7

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/Oh_science/article/details/111998293

版权

一、创建爬虫项目，明确爬取信息

1.1创建Scrapy项目nz_comments

1.1.1使用交互行创建Scrapy项目

爬虫项目在Pycharm的工作目录下创建。首先复制Pycharm的工作目录。
①命令行 cd C:\Users\Administrator\PycharmProjects
②命令行 scrapy startproject nz_comments
成功创建爬虫项目nz_comments.

1.1.2Pycharm打开项目nz_comments
在这里插入图片描述

该项目中，有Scrapy框架的各个核心组件——爬虫spider,项目管道pipelines,中间件middlewares等。

1.2查看豆瓣影评网站，明确爬取信息
1.2.1登录豆瓣影评网站
《哪吒之魔童降世》短评网站：
https://movie.douban.com/subject/26794435/comments?status=P
在这里插入图片描述

1.2.2浏览网页观察重要信息
本项目最终的目的是通过评论词来预测评分，因此要爬取的信息只有两个——评分及评论。
在这里插入图片描述

二、编写爬虫程序，实现信息爬取
2.1 编写爬虫程序前的预备
2.1.1 如何爬取多页
我们把网站拉到最下面，点击“后页>”。
在这里插入图片描述

得到下一页网站界面 =>
在这里插入图片描述

通过观察网站结构，发现规律。
https://movie.douban.com/subject/26794435/comments?start=20&limit=20&status=P&sort=new_score

咱们对比一下第一页，第二页和第三页。
第一页：
https://movie.douban.com/subject/26794435/comments?status=P
第二页：
https://movie.douban.com/subject/26794435/comments?start=20&limit=20&status=P&sort=new_score
第三页：
https://movie.douban.com/subject/26794435/comments?start=40&limit=20&status=P&sort=new_score

可以看的出来，从第二页开始，改变的只是start里面的值，第二页是201，第三页是202，那么第n页就是20*n.
我们通过这个规则爬取多页。

2.1.2 如何获取评分和评论的HTML标签位置
回到第一页。按F12，打开“开发者工具”。
在这里插入图片描述

随后把鼠标移动到评分栏，点击。
在这里插入图片描述

可以看到，评分在<span class=”allstar40 rating” title=”推荐”>这一栏。豆瓣的评分不是直接打分，这里的四分对应“推荐”，如果是五分对应“力荐”。先爬下来，后期我们把信息处理成数值型。
在这一栏，右键复制Xpath。
在这里插入图片描述

得到评分Xpath：
/html/body/div[3]/div[1]/div/div[1]/div[4]/div[1]/div[2]/h3/span[2]/span[2]
同理，得到评论Xpath：
/html/body/div[3]/div[1]/div/div[1]/div[4]/div[1]/div[2]/p/span

2.1.3 如何把各个用户当成一个整体爬取数据
这里涉及到Xpath方法里的选择器，我们需要在服务器响应的HTML文档上先获取所有用户的Xpath，再遍历每个用户，获取每个用户的评分和评论。
同样是通过上面的方法，不过要把鼠标移到整个用户块。
在这里插入图片描述