爬取《肖申克的救赎》豆瓣影评5000条——基于自动化爬虫工具

1 分析需求

这是第一次爬取这么多的数据,最终爬到数据5925条,起因是有个小伙伴想找我爬取豆瓣某部电影的评论,然后拿来做数据分析。豆瓣电影的评论分为两种,一种是影评,内容比较长(有些可高达几万字),质量比较高,分析比较专业。一种是短评,内容比较短,几十字到几百字之间,大多是用户的即兴评价。

一开始,我觉得短评数据比较容易爬取,但是写完代码之后发现到了第20页,程序就自己停了,后来发现到了第20页就没有‘下一页’按钮了,也就是说虽然豆瓣显示共有60多万短评,但是在界面上只展示20多页,按照每页20条短评的数据量来算,总共也只爬到了400条评论,这数据量太少了。

后来才了解到2020年之后豆瓣网页版已经不支持显示所有短评了(心中一万只草泥马奔腾而去)

2. 转战影评

一开始我是很不愿意爬取影评的,因为影评实在太长了,爬取速度非常之慢。

豆瓣是静态网页,所以没有数据接口传过来,只能通过分析页面源代码来获取数据。

3. 编写代码

影评数据最让我头疼的一点是‘展开’这个部分。由于影评太长,所以打开一个网站,实际上是把所有的影评都折叠起来的,你需要点击展开按钮,才能看到一个影评所包含的全部内容。

所以我需要按照顺序一个个点击展开按钮

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值