论文原文:A simple but tough-to-beat baseline for sentence embedding
引言
在神经网络泛滥的时候,这篇文章像一股清流,提出了一个无监督的句子建模方法,并且给出了该方法的一些理论解释。通过该方法得到的句子向量,在STS数据集上取得了不输给神经网络的效果。
句子建模算法
作者将该算法称之为WR。
W表示Weighted,意为使用预估计的参数给句中的每个词向量赋予权重。
R表示Removal,意为使用PCA或者SVD方法移除句向量中的无关部分。
输入:
预训练的词向量{
vw:w∈V