这篇论文产生sentence embedding的方法非常简单,但是效果并不差。整个方法完全避免了深度模型,个人认为在工业界会有好的前景。由于简单易操作,尽管过去一些论文自称为hard/tough-to-beat的baseline,作者仍然把它称为一个much harder-to-beat baseline。从实际效果看,此言不虚。
贡献
最简单的求sentence embedding的方法是对句子里所有的单词embeddings求平均,但是效果差,尤其是不能和复杂的模型比(比如第一篇文章介绍的InferSent)。在这篇文章里,作者把“对word embedding求平均”的操作泛化为p-mean的一类操作,进而推广到使用不同的p值产生不同的特征。
具体的,power-means定义为:
(xp1+...+xpnn)1/p;p∈R∪{
±∞} ( x 1 p + . . . + x n p n ) 1 / p ; p ∈ R ∪ { ± ∞ }
显然,当 p=1 p = 1 时,它就是取平均的操作。另外,当 p=+∞ p = + ∞ ,它是取最大(max)的操作,当 p=−∞ p = − ∞ 时,它是取最小值(min)的操作。作者实验了不同的 p p 值,最终的结论是以上三种操作(平均最大和最小值)放在一起使用效果会非常好。
给定一个句子的word embeddings(假设有n个词,每个embedding有d维):