微博情感分析的表情符号平滑语言模型（A11, AAAI2012）

最新推荐文章于 2022-09-19 22:53:22 发布

gsp_2015

最新推荐文章于 2022-09-19 22:53:22 发布

阅读量2.5k

点赞数

分类专栏：论文阅读之倾向性分析文章标签： ESLAM LM MLE 弱监督表情符号

本文链接：https://blog.csdn.net/ABCD2010014357/article/details/48656203

版权

Emoticon Smoothed Language Models for Twitter Sentiment Analysis 微博情感分析的表情符号平滑语言模型（A11, AAAI2012）

通常，对于完全监督模型，由于耗人力和耗时间只能得到有限的训练数据，对于带噪声标签的模型，虽然很容易获得大量训练数据，但是由于标签的噪声很难得到满意的性能。最好的策略是利用手工标记的数据和噪声数据来训练。文章中，提出一个新的表情符号平滑语言模型（ESLAM）。基本思想是基于手工标记的数据训练语言模型，然后用噪声表情符号来平滑。
前人工作发现对于长文本，SVM比MNB（multinomial naive Bayes）性能更好，短文本反之。但是使用的都是完全监督数据。也有用弱监督训练数据的工作，由于标签的噪声，正确率不令人满意。考虑完全监督和弱监督方法的缺点，最好的策略是利用两种数据来训练。为了无缝集成两种数据于一个模型，提出ESLAM，它的主要贡献：有能力处理拼错的词，俚语，情态词，缩写和无法预料的词；也可以用于主客观分类；从微博API直接评估词概率，不需要下载任何微博，省时省空间。

情感分析的语言模型

Twitter情感分析（TSA）实际上是一个分类问题。为了对TSA采用语言模型（LM），连结所有同一类的微博形成一个综合文档。在测试阶段，每条文本微博看成一个查询，使用概率排名类。有最高概率的类选为文本微博的标签。使用 $c_1$ 和 $c_2$ 标记两个语言模型。在极性分类中， $c_1$ 和 $c_2$ 分别是积极和消极微博的语言模型，在主客观分类中， $c_1$ 和 $c_2$ 分别是主观类和客观类的语言模型。通过计算 $P(t|c_1)$ 和 $P(t|c_2)$ 评估微博概率， $P(t|c)=\Pi_{i=1}^nP(\omega_i|c)$ ，n是词数， $P(\omega_i|c)$ 是LM评估的类c的多项式分布。一个普遍的评估分布方法是极大似然估计（MLE）： $P_a(\omega_i|c)=\frac{N_{i,c}}{N_c}$ ， $N_{i,c}$ 是词 $\omega_i$ 出现在类c训练数据的次数， $N_c$ 是类c中训练数据的总词数。为了划分测试集的微博，经常会遇到训练集中没有出现的词，需要平滑，文章使用JM平滑方法线性插值带表情符号的MLE模型。