《战狼2》真心堪称中国的好莱坞大片,不管是打斗场景的展现,还是在特效的细节处理。吴京的那句“我只会花钱在武器上,花在取景上,永远不会花在小鲜肉上!”,也是近年来,观众对小鲜肉霸屏一种情怀的共鸣。基于对《战狼2》这么高热度的好奇,所以想爬取豆瓣电影上《战狼2》的评论,并做成词云,可视化展示观众对它的实际评论到底如何。核心流程分为3步:爬取评论,评论分词,绘制评论词云。
爬取豆瓣电影《战狼2》评论
在豆瓣电影上爬取点击了最高的10000个评论。豆瓣电影在不登录的情况下,只能查看前200条评论,登录后则没有这个限制,所以需要登录后才能完整的爬取10000条评论。如果直接使用模拟登录的方式,豆瓣在登录时是需要输入验证码的,使用模拟登录的方式难度较大,我们在这里直接使用标识已登录的cookie(dbcl2), 这个cookie的定位需要多次测试排除。核心代码如下:
def main():
session =requests.session()
# 手动粘取登录后的cookie信息,dbcl2对应的值。
cookies = {
"dbcl2": ""}
for index in xrange(7000, 10000, 20):