Learning sentiment-specific word embedding for twitter sentiment classification 学习微博情感分类的特定情感词嵌入(A14, ACL2014)
文章提出了一个学习微博情感分类的词嵌入方法。大多数现存算法只对词的上下文句法结构建模学习连续词表达,忽略了文本情感。这存在问题,它们经常匹配相似的上下文句法结构但是相反的情感极性为邻居词向量。文章提出学习特定情感词嵌入(SSWE),在连续的词表达中编码情感信息。特别地,开发了三个神经网络在它们的损失函数中从文本情感极性有效包含监督。为了获得大规模训练语料,从通过积极、消极表情符号收集到的大量弱监督微博学习特定情感词嵌入。自动收集的微博包含噪声,不能直接用作好的训练数据建立情感分类器,但是为训练特定情感词嵌入提供弱监督信息是足够有效的。
采用SSWE作为情感分类监督学习框架的特征,在SemEval 2013基准数据集上评估。在预测微博极性的任务中,只使用SSWE作为特征得到的宏F1值比基于手工特征的性能最好的系统好一点。结合SSWE特征和现存的特征集后,达到了最高水平的宏F1值。在每个情感词和它的前N个最接近词极性一致性的正确性方面,SSWE比现存词嵌入学习算法性能更好。
Twitter情感分类的特定情感词嵌入
参考文献中引入C&W模型基于词的上下文句法学习词嵌入。给定一个n元文法,C&W替换中心词为一随机词 ωr 产生一个损坏的n元文法。训练目标是原始的n元文法相比损坏的n元文法有望获得更高的语言模型得分。排序目标函数可以优化为一个损失函数: losscw(t,tr)=max(0,1−fcw(t)+fcw(tr)) (1) ,t是原始n元语法, tr 是损坏n元文法, fcw(⋅) 是一维标量,代表输入n元文法语言模型得分。C&W的神经架构由4层组成,自底向上为lookup → linear → hTanh → linear。原始和损坏的n元文法分别当做前馈神经网络的输入。输出 fcw 是输入的语言模型的得分,通过(2)式计算: fcw(t)=ω2(a)+b2 (2) , a=h Tanh(ω1Lt+b1) (3) , x<−1,h Tanh(x)=−1,−1≤x≤1,h Tanh(x)=x,x>1,h Tanh(x)=1 。L是词嵌入的lookup表, ω1,ω2,b1,b2 是linear层的参数。
在此基础上,文章引入情感信息到神经网络学习特定情感词嵌入。用不同策略开发了3个神经网络集成微博的情感信息。
- 基本模型1( SSWEh )
作为一个非监督方法,C&W模型不直接获取文本的情感信息。一个直观的解决方法集成情感信息是基于输入n元文法的文本预测情感分布。由于不同句子长度不同,不使用整个句子作为输入。滑动n元文法的窗口,用共享的神经网络基于每个n元文法预测情感极性。在神经网络中,较高层的分布表达解读为描述输入的特征。这样,利用顶层的连续向量预测文本的情感分布。
假定有K个标签,更改C&W模型的顶层维数为K,在顶层上面添加一个softmax层。softmax层在这个场景中很合适因为它的输出解读为条件概率。不同于C&W, SSWEh 不产生任何损坏n元文法。令 fg(t) 为输入t的黄金K维多项式分布,K为情感极性标签数, ∑kfgk(t)=1 。对于积极/消极分类,积极分布形如[1,0],消极分布形如[0,1]。softmax层的交叉熵是: los