怎样做情感分析

最新推荐文章于 2023-12-31 01:10:32 发布

Alice熹爱学习

最新推荐文章于 2023-12-31 01:10:32 发布

阅读量2.4k

点赞数 1

分类专栏：自然语言处理自然语言处理

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/71055227

版权

本文介绍了情感分析的基本概念，包括其在实际生活中的应用。情感分析技术通过识别文本中的情感倾向，如喜欢、讨厌或中立。文章提到了早期的情感分析方法，如基于情感词典的统计，以及现代的Word2Vec模型，该模型能够捕捉上下文信息，提高分析准确性。项目实践部分，作者使用Skip-gram和Negative sampling训练词向量，并通过Softmax Regression进行分类学习，以实现情感分析任务。

摘要由CSDN通过智能技术生成

本文结构：

什么是情感分析？
怎么分析，技术上如何实现？

cs224d Day 7: 项目2-命名实体识别

2016课程地址
 项目描述地址

什么是情感分析？

就是要识别出用户对一件事一个物或一个人的看法、态度，比如一个电影的评论，一个商品的评价，一次体验的感想等等。根据对带有情感色彩的主观性文本进行分析，识别出用户的态度，是喜欢，讨厌，还是中立。在实际生活中有很多应用，例如通过对 Twitter 用户的情感分析，来预测股票走势、预测电影票房、选举结果等，还可以用来了解用户对公司、产品的喜好，分析结果可以被用来改善产品和服务，还可以发现竞争对手的优劣势等等。

怎么分析，技术上如何实现？

首先这是个分类问题。

最开始的方案是在文中找到具有各种感情色彩属性的词，统计每个属性的词的个数，哪个类多，这段话就属于哪个属性。但是这存在一个问题，例如 don’t like ，一个属于否定，一个属于肯定，统计之后变成 0 了，而实际上应该是否定的态度。再有一种情况是，前面几句是否定，后面又是肯定，那整段到底是中立还是肯定呢，为了解决这样的问题，就需要考虑上下文的环境。

2013年谷歌发了两篇论文，介绍了 Continuous Bag of Words (CBOW) 和 Skip-gram 这两个模型，也就是 Word2Vec 方法，这两种模型都是先将每个单词转化成一个随机的 N 维向量，训练之后得到每个单词的最优表示向量，区别是，CBOW 是根据上下文来预测当前词语，Skip-gram 刚好相反，是根据当前词语来预测上下文。

Word2Vec 方法不仅可以捕捉上下文语境，同时还压缩了数据规模，让训练更快更高效。通过这个模型得到的词向量已经可以捕捉到上下文的信息。比如，可以利用基本代数公式来发现单词之间的关系（比如，“国王”-“男人”+“女人”=“王后”）。用这些自带上下文信息的词向量来预测未知数据的情感状况的话，就可以更准确。

word2vec

今天的小项目，就是用 word2vec 去解决情感分析问题的。先来简单介绍一下大体思路，然后进入代码版块。

思路分为两部分，第一步，就是先用 word2vec 和 SGD 训练出每个单词的最优表示向量。第二步，用 Softmax Regression 对训练数据集的每个句子进行训练，得到分类器的参数，用这个参数就可以预测新的数据集的情感分类。其中训练数据集的每个句子，都对应一个0－1之间的浮点得分，将这个得分化为 0-4 整数型 5 个级别，分别属于 5 种感情类别，讨厌，有点讨厌，中立，有点喜欢，喜欢。然后将每个句子的词转化成之前训练过的词向量，这样哪些词属于哪个类就知道了，然后用分类器得到分类的边界，得到的参数就可以用来进行预测。