学习微博中情感分类的句子表达(NLPCC2013) Learning sentence representation for emotion classification on microblogs
文章采用伪标记数据,来通过深度信任网络(DBN)算法学习句子表达。数据是通过微博情感分析中弱监督学习和训练语言模型得到。在监督学习框架上的实验结果表明,使用伪标记数据,深度信任网络学到的表达比基于主成分分析和基于隐性Dirichlet分配的表达要好。引入基于深度信任网络的表达于基本特征,性能进一步提高。
文章中通过情感符号收集的信息叫做伪标记语料。利用伪标记语料学习DBN基本框架中的句子表达。
微博情感分析可以从两个角度来看,依赖于目标的和目标独立的情感分析。文章研究目标独立的情感分类任务。
方法
从伪标记语料学习表达一些步骤是必要的。为了获得伪标记语料,每个类(Happy,Sad,Angry和Surprise)的表情符号需要提前选定。为了减少手工工作同时过滤有歧义的表情符号,基于它们的质量和数量选择有代表性的表情符号。接着预处理和标准化来保证伪标记语料的质量。然后,提出基本特征映射每条信息到相同维数的特征空间。最后采用深度信任网络通过一个非监督,贪心逐层算法学习句子表达。
- 表情符号的选择
为了保证自动标记的质量,不是所有的表情符号都保留,有歧义的需要过滤掉。因此,基于质量和数量的表情符号自动排序策略很重要。受参考文献的启发,每个表情类中的每个表情符号的重要性为: Si(ej)=Acci(ej)∗log10(freq(ej)) (1) , Acci(ej)=∑kco_freq(ej,s