本项目的目的是:通过运用机器学习的方法,设计在线评论的情感分析模型,并且分析其效果。分为如下几个部分:
目录
1、在线评论情感分析系统的简单介绍
本篇研究的内容是通过机器学习方法来研究文本评论内容中的情感倾向性。众所周知,网络中的评论是非常重要的,但是它的量很大,所以大部分评论内容都被浪费掉了。所以通过研究全体评论的内容,可以尽可能的利用这种无形资产。我们在这里以大众点评-北京王府井外婆家为例子。本项目的流程是
1、获取评论内容
2、预处理预料文件
3、对文本进行特征工程
4、通过机器学习模型进行建模
5、测试效果
获取评论内容的方式是通过python中scrapy来获取在线评论,其中分为了有图片和无图片的评论。根据以往经验,有图片的评论更有意义,所以要把他们给区分出来。
接下来需要对于预料进行预处理。下载好的原始预料包含了大量的噪音,而且这种情况下计算机根本无法识别。所以在这个步骤中,最重要的两点是去除噪音以及合理分词。
取出噪音的第一步是把一些无意义的符号都给去除掉。然后用现有的停用词语表和分词表进行分词以及词性标注。但是这里的问题在于这些词典未必的那么适合现在的这种餐厅文本。所以一方面我先通过一些输入法的餐饮美食词库来扩充的我的词典,然后再后文使用word2vec时,通过计算相关性来再次发掘新的特殊词语。在这一步中有时候容易把词组给错误分出来,我的办法是可以通过词性组合和否定词组合来人工提炼出一