使用机器学习的方法对于在线评论进行情感分析

Ryiiiin

于 2019-03-13 15:04:15 发布

阅读量4.8k

点赞数 1

分类专栏：机器学习工程实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010929628/article/details/88532847

版权

本文介绍了一个使用机器学习进行在线评论情感分析的项目，涉及数据获取、预处理、特征工程、多种机器学习方法（如朴素贝叶斯、C4.5分类树）的应用，并对测试结果进行了分析。项目中，通过Scrapy爬取评论，使用tf-idf和word2vec进行特征选择和向量化，以平衡样本并提高模型效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本项目的目的是：通过运用机器学习的方法，设计在线评论的情感分析模型，并且分析其效果。分为如下几个部分：

目录

1、在线评论情感分析系统的简单介绍

2、特征工程

3、所采用的机器学习方法

4、测试分析

1、在线评论情感分析系统的简单介绍

本篇研究的内容是通过机器学习方法来研究文本评论内容中的情感倾向性。众所周知，网络中的评论是非常重要的，但是它的量很大，所以大部分评论内容都被浪费掉了。所以通过研究全体评论的内容，可以尽可能的利用这种无形资产。我们在这里以大众点评-北京王府井外婆家为例子。本项目的流程是

1、获取评论内容

2、预处理预料文件

3、对文本进行特征工程

4、通过机器学习模型进行建模

5、测试效果

获取评论内容的方式是通过python中scrapy来获取在线评论，其中分为了有图片和无图片的评论。根据以往经验，有图片的评论更有意义，所以要把他们给区分出来。

接下来需要对于预料进行预处理。下载好的原始预料包含了大量的噪音，而且这种情况下计算机根本无法识别。所以在这个步骤中，最重要的两点是去除噪音以及合理分词。

取出噪音的第一步是把一些无意义的符号都给去除掉。然后用现有的停用词语表和分词表进行分词以及词性标注。但是这里的问题在于这些词典未必的那么适合现在的这种餐厅文本。所以一方面我先通过一些输入法的餐饮美食词库来扩充的我的词典，然后再后文使用word2vec时，通过计算相关性来再次发掘新的特殊词语。在这一步中有时候容易把词组给错误分出来，我的办法是可以通过词性组合和否定词组合来人工提炼出一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。