1 分析需求
这是第一次爬取这么多的数据,最终爬到数据5925条,起因是有个小伙伴想找我爬取豆瓣某部电影的评论,然后拿来做数据分析。豆瓣电影的评论分为两种,一种是影评,内容比较长(有些可高达几万字),质量比较高,分析比较专业。一种是短评,内容比较短,几十字到几百字之间,大多是用户的即兴评价。
一开始,我觉得短评数据比较容易爬取,但是写完代码之后发现到了第20页,程序就自己停了,后来发现到了第20页就没有‘下一页’按钮了,也就是说虽然豆瓣显示共有60多万短评,但是在界面上只展示20多页,按照每页20条短评的数据量来算,总共也只爬到了400条评论,这数据量太少了。
后来才了解到2020年之后豆瓣网页版已经不支持显示所有短评了(心中一万只草泥马奔腾而去)
2. 转战影评
一开始我是很不愿意爬取影评的,因为影评实在太长了,爬取速度非常之慢。
豆瓣是静态网页,所以没有数据接口传过来,只能通过分析页面源代码来获取数据。
3. 编写代码
影评数据最让我头疼的一点是‘展开’这个部分。由于影评太长,所以打开一个网站,实际上是把所有的影评都折叠起来的,你需要点击展开按钮,才能看到一个影评所包含的全部内容。
所以我需要按照顺序一个个点击展开按钮