论文原文:A simple but tough-to-beat baseline for sentence embedding
引言
在神经网络泛滥的时候,这篇文章像一股清流,提出了一个无监督的句子建模方法,并且给出了该方法的一些理论解释。通过该方法得到的句子向量,在STS数据集上取得了不输给神经网络的效果。
句子建模算法
作者将该算法称之为WR。
W表示Weighted,意为使用预估计的参数给句中的每个词向量赋予权重。
R表示Removal,意为使用PCA或者SVD方法移除句向量中的无关部分。
输入:
预训练的词向量{
vw:w∈V

本文介绍了一种名为WR的无监督句子建模方法,它在句子相似性任务上表现出色,与RNN和LSTM相媲美。WR结合预训练的词向量和PCA/SVD去除无关信息,但情感分析方面略逊一筹,因为词向量对反义词问题敏感度不足。实验结果显示,该算法高效且易于实现,适合大规模无监督学习。
最低0.47元/天 解锁文章
728





