Emoticon Smoothed Language Models for Twitter Sentiment Analysis 微博情感分析的表情符号平滑语言模型(A11, AAAI2012)
通常,对于完全监督模型,由于耗人力和耗时间只能得到有限的训练数据,对于带噪声标签的模型,虽然很容易获得大量训练数据,但是由于标签的噪声很难得到满意的性能。最好的策略是利用手工标记的数据和噪声数据来训练。文章中,提出一个新的表情符号平滑语言模型(ESLAM)。基本思想是基于手工标记的数据训练语言模型,然后用噪声表情符号来平滑。
前人工作发现对于长文本,SVM比MNB(multinomial naive Bayes)性能更好,短文本反之。但是使用的都是完全监督数据。也有用弱监督训练数据的工作,由于标签的噪声,正确率不令人满意。考虑完全监督和弱监督方法的缺点,最好的策略是利用两种数据来训练。为了无缝集成两种数据于一个模型,提出ESLAM,它的主要贡献:有能力处理拼错的词,俚语,情态词,缩写和无法预料的词;也可以用于主客观分类;从微博API直接评估词概率,不需要下载任何微博,省时省空间。
情感分析的语言模型
Twitter情感分析(TSA)实际上是一个分类问题。为了对TSA采用语言模型(LM),连结所有同一类的微博形成一个综合文档。在测试阶段,每条文本微博看成一个查询,使用概率排名类。有最高概率的类选为文本微博的标签。使用 c 1 和 c 2 标记两个语言模型。在极性分类中, c 1 和 c 2 分别是积极和消极微博的语言模型,在主客观分类中, c 1 和 c 2 分别是主观类和客观类的语言模型。通过计算 P(t|c 1 ) 和 P(t|c 2 ) 评估微博概率, P(t|c)=Π n i=1 P(ω i |c) ,n是词数, P(ω i |c) 是LM评估的类c的多项式分布。一个普遍的评估分布方法是极大似然估计(MLE): P a (ω i |c)=N i,c N c , N i,c 是词 ω i 出现在类c训练数据的次数, N c 是类c中训练数据的总词数。为了划分测试集的微博,经常会遇到训练集中没有出现的词,需要平滑,文章使用JM平滑方法线性插值带表情符号的MLE模型。
表情符号模型
提出了非常高效的方法从微博搜索API评估表情符号语言模型 P μ (ω i |c)