一、摘要
用Python对爬取得到的京东vivo手机评论信息数据进行情感分析,通过LDA模型进一步分析,进而总结出vivo手机的优势与劣势。
二、分析步骤
1)重复值处理
2)过滤短句
3)情感分析
4)去除无用符号
5)分词
6)词频统计
7)LDA主题分析
8)结论
三、具体分析过程
1.导入数据
import pandas as pd
data = pd.read_csv('vivo_comments.csv')
print(type(data))
2.重复值处理
将读取数据中所有列相同的值删除
data_null = data.drop_duplicates()
print(data_null)
data_null.to_csv('comments_null.csv')
data_null_comments = data_null['contents']
data_null_comments.to_csv('contents.txt',index=False,encoding='utf-8')
print(len(data_null_comments))
3.过滤短句
将数据中长度小于4的过滤掉,保留长度大于4的数据。
data_len = data_null_comments[data_null_comments.str.len()>4]
print(data_len)
data_len.to_csv('contents.txt',index=False,encoding='utf-8')
4.情感分析
利用SnowNlP库将评论数据分为正面评论和负面评论
from snownlp import SnowNLP
data = pd.read_csv('contents.txt',encoding='utf-8',header=None)
print(data)
# print(type(data))
coms =