本帖最后由 missy 于 2017-12-9 00:12 编辑
因为最近看了一下《致我们单纯的小美好》,虽然情节是有点“二”吧,但是看了觉得真的很怀念初高中的日子,一时玩心大发,于是就想搞点有意思的东西。。。首先去爬了豆瓣上面的短评,然后就是用SnowNLP做了一个比较粗糙的情感分析,结果可能不是很准确,因为这个python库本来是用来分析购物评论一类的,最后还做了一个简单的词云,因为觉得比较好玩吧。最开始先放上效果图,向各位大佬比心~
Figure_1.png (26.71 KB, 下载次数: 60)
情感分析图
2017-12-9 00:02 上传
heart.jpg (97.98 KB, 下载次数: 56)
词云
2017-12-9 00:02 上传
一、爬虫
因为豆瓣有反爬虫机制,这里加上了cookie来爬取数据,把登录后的cookie放入txt文件中,经过处理变成我们需要的格式使用。通过分析目标url发现前页和后页两个链接中的start参数的值相差20,其它完全相同,废了点时间找到了最后一页。。。480页,所以直接用了一个for循环来解决翻页的问题,最后是将数据都放到了comment.txt文件中,便于后面分析使用。
[Python] 纯文本查看 复制代码import requests, codecs
from lxml import html
import time
import random
header