我用Python爬取了豆瓣影评,成功后居然发现了一个惊人的秘密.........

大家好,我是IT界搬运喵。


相信大家在工作无聊时,总想掏出手机,看看电影刷刷视频。更加是夜深人静的时候,总是按耐不住自己的内心想要去看看小电影,当然我可没有开车。我说的是好电影,豆瓣高分电影,自己想歪的时候可不要怪我。

但是看电影之前,都想会简单的了解一下这部电影讲的是什么剧情等等(我真没有开车!!!)所以我今天就来带你爬取一下豆瓣影评!

前言

利用利用requests+xpath爬取豆瓣影评,废话不多说。

让我们愉快地开始吧~

开发工具

Python版本:3.6.8

相关模块:

requests模块;

jieba模块;

pandas模块

numpy模块

pyecharts模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

前期准备

1.获取页面内容

# 爬取页面 url\
douban_url = 'https://movie.douban.com/subject/26647117/comments?status=P'\
# requests 发送请求\
get_response = requests.get(douban_url)\
# 将返回的响应码转换成文本(整个网页)\
get_data = get_response.text

2.分析页面内容,获取我们想要的内容

  • 浏览器中打开我们要爬取的页面
  • 按F12进入开发者工具,查看我们想要的数据在哪里
  • 这里我们只要 评论人+评论内

 3.分析我们获取的 xpath值

'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[1]** /div[2]/h3/span[2]/a'
'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[2]** /div[2]/h3/span[2]/a'
'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[3]** /div[2]/h3/span[2]/a'

通过观察我们发现,这几个xpath只有细微不同,上面加粗的部分已数加的格式改变,所以我们要爬取所有的 commentator(评论者),只需把xpath改为:

'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div**/div[2]/h3/span[2]/a'

即不要后面的序号,当我们查询时,会自动捕获类似的xpath。

  • 同样的分析,我们可以得到评论内容的xpath为:
    # (跟在上面代码后)解析页面,并输出获取内容\
    a = etree.HTML(get_data)\
    commentator = s.xpath('/html/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值