利用python进行数据分析豆瓣_爬虫:python采集豆瓣影评信息并进行数据分析

本文介绍了如何使用Python爬虫爬取并分析豆瓣电影《复仇者联盟4》的影评数据。通过分析网页元素,提取了短评内容、发布人信息、评价指数、评价时间和赞同数。利用XPath解析HTML,存储数据到Excel,并进行了词云分析和时间趋势分析。结果显示,用户在上映初期和深夜时段更活跃,评论数量随时间减少,表明大部分观众在上映初期关注和讨论较多。
摘要由CSDN通过智能技术生成

前言:最近比较有时间,替一个同学完成了一个简单的爬虫和数据分析任务,具体的要求是爬取复仇者联盟4 的豆瓣影评信息并进行简单的数据分析,这里的数据分析指的是提取关键词并进行词云分析以及按照时间进行热度分析,分析比较简单,后续可以继续完善。

首先,献上数据采集和分析的结果。

image_1599653294696.png

短评数据

按照该同学的要求,只采集了1000条数据,有需要更多数据的同学可自行修改采集的限制即可

image_1599653357606.png

下面,我们就来详细描述下如何完成数据采集和数据分析的工作的

首先,爬虫的第一步,分析页面元素,打开网页,按下F12,查看数据请求

image_1599653544094.png

从上往下,依次寻找,我们可以发现数据就存在于第一个请求中

我们可以分析下这个请求,点击翻页,多请求几个页面

image_1599653593476.png

我们可以知道他的翻页规律是由start和limit这两个参数来控制的,start表示第几页,limit表示每页多少条

知道他的分页规律后,我们需要定位我们需要采集的元素,我们这里需要采集短评内容、发布人信息、评价指数、评价时间,赞同数等

这里我们选择的是etree+xpath解析数据,这里我给大家演示下如何定位短评内容,我们采用浏览器上的选中元素的功能,选中元素后,查看元素的位置

image_1599653727440.png

分析对应的html元素,首先找到改元素最可靠的顶级元素,这里我们可以很容易的发现这个元素是位于id="comments"这个div元素下面,一般而言,以id为准的元素不会发生太大的变化,接着,我们继续往下找,找到对应元素的上级中比较可靠的元素,比如class,这里有个小技巧,我们可以利用浏览器的$x方法验证我们的xpath是否正确,像下面这样

image_1599653778496.png

这样我们就可以很容易的采集到短评数据了,代码如下

def start_spider(self):

result_list = []

for i in range(0,50):

start = i

reponse = requests.get(self.target_url.format(start),headers=self.headers)

# print(reponse.text)

html = etree.HTML(str(reponse.content,'utf-8'))

# 短评列表

short_list = html.xpath('//div[@id="comments"]/div[@class="comment-item"]//span[

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值