RUBER全称:Referenced metric and Unreferenced metric Blended Evaluation Routine.
Introduction
照例把BLEU, METEOR, ROUGE等方法批判一通,lowe的文章的那个方法(towards xxx )需要大量的人工标注,不flexible也不extensible。
RUBER:
* Embedding-based scorer, referenced metric。衡量生成的reply和groundtruth之间的相似性(similarity)。
* Neural network-based scorer,unreferenced metric。衡量生成的reply和它的query之间的相关性(relatedness)。采用负采样的方法来训练网络,不需要人工标注
Methodology
Referenced Metric
采用 vector pooling
w1,w2,...,wn 表示word embedding,max pooling:
vmax[i]=max{
w1[i],w2[i],...,wn[i]}