我用Python爬取了豆瓣影评，成功后居然发现了一个惊人的秘密.........

最新推荐文章于 2024-09-05 18:25:09 发布

IT界搬运喵

最新推荐文章于 2024-09-05 18:25:09 发布

阅读量974

点赞数

分类专栏： Python 爬虫文章标签： python 开发语言 list xpath request

本文链接：https://blog.csdn.net/m0_54214980/article/details/121961652

版权

大家好，我是IT界搬运喵。

相信大家在工作无聊时，总想掏出手机，看看电影刷刷视频。更加是夜深人静的时候，总是按耐不住自己的内心想要去看看小电影，当然我可没有开车。我说的是好电影，豆瓣高分电影，自己想歪的时候可不要怪我。

但是看电影之前，都想会简单的了解一下这部电影讲的是什么剧情等等（我真没有开车！！！）所以我今天就来带你爬取一下豆瓣影评！

前言

利用利用requests+xpath爬取豆瓣影评，废话不多说。

让我们愉快地开始吧~

开发工具

Python版本：3.6.8

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

前期准备

1.获取页面内容

# 爬取页面 url\
douban_url = 'https://movie.douban.com/subject/26647117/comments?status=P'\
# requests 发送请求\
get_response = requests.get(douban_url)\
# 将返回的响应码转换成文本（整个网页）\
get_data = get_response.text

2.分析页面内容，获取我们想要的内容

浏览器中打开我们要爬取的页面
按F12进入开发者工具，查看我们想要的数据在哪里
这里我们只要评论人+评论内

3.分析我们获取的 xpath值

'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[1]** /div[2]/h3/span[2]/a'
'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[2]** /div[2]/h3/span[2]/a'
'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[3]** /div[2]/h3/span[2]/a'

通过观察我们发现,这几个xpath只有细微不同,上面加粗的部分已数加的格式改变，所以我们要爬取所有的 commentator（评论者），只需把xpath改为：

'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div**/div[2]/h3/span[2]/a'

即不要后面的序号，当我们查询时，会自动捕获类似的xpath。

同样的分析，我们可以得到评论内容的xpath为：

# （跟在上面代码后）解析页面，并输出获取内容\
a = etree.HTML(get_data)\
commentator = s.xpath('/html/

最低0.47元/天解锁文章

IT界搬运喵

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录