用python爬取天猫商品评论并分析(2)
之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程:
0. 主要流程
0. 数据采集
这一步参考网址:https://www.jianshu.com/p/2b015d289083或者
http://blog.csdn.net/weixin_41716128/article/details/79306923
0. 目标网址获取
1. 爬虫框架选用
1. 数据处理
这一步参考网址:https://www.jianshu.com/p/2c2906ef230f或者
http://blog.csdn.net/weixin_41716128/article/details/79314082
0. 数据存储
1.数据清洗
2. 数据初步分析
2. 数据挖掘
0. 用户情感分析
上次爬取并处理过的数据这里我提取追加评论字段进行分析(追加的评论更能体现产品品质)
导出txt文档如下:
并更名为comment.txt
好了写挖掘代码:
from snownlp import SnowNLP
file="comment.txt"
file1="new.txt"
x=0
#好评计数
k=0
#中评计数
y=0
#差评计数
z=0
#总数
with open(file,"r",encoding="utf-8") as text:
#打开目标文件
with open(file1, "w", encoding="utf-8") as text1:
#打开保存差评的文件
for comment in text:
z+=1
s=SnowNLP(comment)
#文本分析
s=s.sentiments
#情感系数
if s>0.5:
x+=1
elif s==0.5:
k+=1
else:
text1.write(comment)
#写入差评数
y+=1
print("好评数:"+str(x))
print("差评数:"+str(y))
print("中评数:"+str(k