Unsupervised word and dependency path embeddings for aspect term extraction
Yin Yichun, 2016
本文解决的问题是aspect term提取问题,总的来说转换成了序列标注问题,应用CRF算法解决。
总结:本文将aspect term抽取问题看成序列标注问题,并采用CRF方法解决,在向CRF输入每个单词的特征时,不仅仅用词向量,还考虑更丰富的上下文信息,比如邻居单词的词向量,和上下文单词的依存关系信息。具体实现上,是通过无监督学习,得到词向量和依存路径的向量表示。在为每个单词选择特征时,不仅考虑其词向量,而且考虑线性上下文特征和依存上下文特征。以这些特征作为CRF的输入,进行序列标记。创新点在于训练依存路径的向量表示。
1、词向量和依存路径向量的无监督学习
(注,本文不是学依存路径,而是学习依存关系,依存路径是通过利用循环神经网络对依存关系进行组合得到的,怎么能说学路径的表示呢?!)
取两个单词之间的最短依存路径,组成三元组。依存路径的向量是组合向量compositionality,文中采用循环神经网络得到路径向量。无监督学习的训练目标是让gold三元组的得分最高(负采样),这样经过对大量数据的学习,可以得到词向量和路径向量。当然,路径数随着跳数指数增长,文中只考虑跳数小于3的路径对应的三元组。