情感分类《Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification ofReviews》

最新推荐文章于 2021-12-02 16:11:53 发布

Answerlzd

最新推荐文章于 2021-12-02 16:11:53 发布

阅读量970

点赞数 2

分类专栏：自然语言处理文章标签：语义指向 nlp 无监督分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Answer3664/article/details/101367879

版权

自然语言处理专栏收录该内容

22 篇文章 2 订阅

订阅专栏

Motivation:

在淘宝上买东西时往往会看一下其他人的发布的评价，一条一条看可能很浪费时间。因此本文旨在实现一个自动对评价信息进行分类的算法。

当前研究：

以往预测语义指向都是使用句子中出现的形容词，没有考虑副词或短语的情况（Hztzicassiliglou et al 1997）。或者需要人工手段判断形容词是积极词汇还是消极词汇。有的仅仅给出文档的主题信息，没有挖掘文章的方向（例如积极或者消极）。

算法实现步骤：

输入一个句子，使用词性标签对句子中包含形容词或副词的短语进行标注；
使用PMI-IR算法对上面抽取出来的每个短语计算其语义指向（SO）；
计算一个句子所有SO的平均值.若SO>0，则recommended；否则not recommended。

PMI-IR算法：

PMI-IR(Pointwise Mutual Information and Information Retrival)算法字面的意思是通过信息检索的手段计算两个单词或短语之间的相似度（PMI），公式如下：

p(word1&word2)是word1和word2同时出现的可能性。若word1和word2独立，则p(word1&word2)=p(word1)*p(word2)，因此PMI表示的是两个单词之间的关联度。

对于一个抽取出的短语，其语义指向OS计算如下：

也就是一个短语和单词“excellent”的PMI减去这个短语和“poor”的PMI，得到这个短语和哪个词的关联度更大。若S0>0，则是正向的，否则是反向的。

联立上面两个式子，可得：

这里hits(x)表示利用搜索引擎检索文档时包含x的数量，“NEAR”代替了上面的“&”是因为NEAR能更好的表示单词之间的语义相连性Turney,2001）。

实验结果：

启发:

导致电影识别率低的一个原因是一般好的电影可能会包含一些消极的词汇（暴力、死亡）。因此事先知道电影的题材可能有助于提高识别精度，例如将计算的结果和电影简介进行对比。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
情感分类《Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification ofReviews》

Motivation:在淘宝上买东西时往往会看一下其他人的发布的评价，一条一条看可能很浪费时间。因此本文旨在实现一个自动对评价信息进行分类的算法。当前研究：以往预测语义指向都是使用句子中出现的形容词，没有考虑副词或短语的情况（Hztzicassiliglou et al 1997）。或者需要人工手段判断形容词是积极词汇还是消极词汇。有的仅仅给出文档的主题信息，没有挖掘文章的方向（...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。