酒店评论情感分析(3)

http://manu44.magtech.com.cn/Jwk_infotech_wk3/article/2017/2096-3467/2096-3467-1-3-62.shtml
发现了一篇高大上的文章
经过思路启发,做了词干提取和统一小写
words = word_tokenize(str(i).lower())
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
cutwords4=[porter_stemmer.stem(word) for word in cutwords3]#提取词干

查看前30个关键词。
freq = pd.Series(’ '.join(x).split()).value_counts()[:30]
在这里插入图片描述
from wordcloud import WordCloud
from matplotlib import pyplot as plt
wordcloud = WordCloud(width=2000, height=1000, random_state=21, max_font_size=220).generate(x_cloud)#max_words=100# 最大词语数量

plt.imshow(wordcloud, interpolation=‘bilinear’)# 显示词云
plt.axis(‘off’)# 关闭保存
plt.show()

生成词云如上
由此找到了出现次数较多的关键词。
考虑去掉高频无关词,做word2vec
尝试用NLTK
from nltk.corpus import sentiwordnet as swn #得到单词情感得分
计算情感得分得到积极情感得分作为分类的依据。
但效果不佳,且看似与类别并无关系
考虑将正面词和负面词计数后作为分类依据尝试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值