本文使用无监督方法解决aspect分类问题、生成 aspect相关形容词并判断形容词的极性。
总结:本文使用无监督学习并考虑了aspect和sentiment之间的交互,解决aspect检测并自动生成和每个aspect高度相关的包含positive形容词和negative形容词的种子集。aspect检测是通过在句子级别应用的local LDA模型,生成aspects上的一个分布,并且对每个aspect定义一个阈值,如果概率超过该aspect那么认为句子包含了该aspect。然后根据否定前缀和否定词信息以及conjunction信息,为每个aspect得到两组形容词,把出现频率最高的那一组定义为positive,另一组为negative。本文的优秀之处在于没有使用任何词典信息,而是完全数据驱动的,有训练数据得到所有的东西。但本文的缺点是使用形容词作为情感指示器,其他词性的单词对情感判断也是有帮助的。
1、aspect
通过把句子看作文档,应用local LDA模型。假设aspect数目(即topic数目)在10~20之间,通过聚类验证方法(cluster validation scheme)确定最优值。聚类验证法是指对不同model order(聚类数)进行比较,一致性最高的那个数目为最优数目(the one with the most consistent clustering is chosen)。这里为每个aspect关联一个cluster,并把每句话标记为属于最可能aspect对应的cluster。
定义一致性函数: