简介
这个文章的工作:指出现存的metric的缺点,提出一个更好的metric的建议。
chatbot最大的难题就是,给定一个context,valid response会非常的多。文章从word-based 以及word-embedding based similarity metrics读评估不同的模型(retrieval & generative)的表现。
word based: BLEU, METEOR, ROUGE之类的常见方法
word-embedding based: word2vec
当他们用embedding-based metrics的时候,他们发现虽然有些模型在很多metrics和domains上都表现很好,但是这些metrics和人类评估的相关性依然很弱。他们从三个方面来评估这些metrics的弱点:
1. 对结果的统计分析
2. 对一些例子的定性分析
3. 对这些metrics的灵敏度的探索
相关工作
- PARRDISE:
- MeMo: 评估对话系统和模拟用户的交互
文章想要关注的是model-independent的metrics,所以他们不考虑word perplexity,也不考虑retrieval-based中的recall。
Evaluation Metrics
ground truth responses:
R
proposed responses:
长度都是
N
word overlap-based metrics
BLEU, METEOR, ROUGE之流
Embedding-based metrics
- Greedy Matching:从特性上来讲,会更倾向于key words和ground truth response中语义相近的回复。不是sentence-level的
- Embedding Average:sentence-level的。就是把句子的所有词的embedding做了一个平均,然后计算
r 和 r^ 之间的cosine距离- Vector Extrema:也是sentence-level的,想法很简单明确,忽略那些common word,认为那些携带有重要信息的词在向量空间上是比较突出的。(应该是这么理解的吧)
然后文章介绍了比较常用的dialogue system模型。
- 基于TF-IDF的retrieval based model,还分为C-TFIDF(针对context之间的cosine距离)和R-TFIDF(针对input context和response之间的cosine距离)
- Dual Encoder模型
- LSTM语言模型
- HERD模型(Hierarchical Recurrent Encoder-Decoder)
然后分析了一下结论:
用embedding-based metrics,可以较为明显的显示出DE模型比TF-IDF要好,HERD模型比LSTM要好,同时HERD模型和DE模型在Ubuntu数据集上的表现差不多。但是这并不能说明这个metrics就能够较好的捕捉到对话中的信息,因为这个模型和人的打分情况的相关性依然非常的弱。Human Correlation Analysis
数据集描述:
给定上下文和一个回复,给这个回复的合适性打分。问题们对应有20种不同的上下文,对应5个回复:1. 从测试集中随机挑的;2-4:上面说的算法产生的;5:人的回复。
有25个人来对此进行1-5的打分,并且对这些打分做了一致性检验(cohen kappa score),去掉了2个kappa系数很低的。Kappa 系数:用来衡量两种标注结果的吻合程度,标注指的是把N个样本标注为C个互斥类别
结果分析
对metrics的结果和人的打分做了Pearson correlation和Spearman correlation
Pearson 系数:
Spearman 系数并没有哪个metrics和人类的评价有较强的相关性。
而且他们去除停用词和标点之后再次使用BLEU,并且比较他们和人评价的相关性,发现BLEU对那些不影响到句子语义的因素是非常敏感的。
他们还检验了长度对于metrics效果的影响,(文章这个地方还标错了分析结果对应的表<( ̄3 ̄)> )相比于Embedding Average和人的评价,BLEU和METEOR对于长度是比较敏感的。【是通过不同长度的response得到的评分mean score,然后通过P-value来看长度使得分数变化的显著性吗?】定性分析
用两个例子来分析:
* 人的评分很高,而embedding metrics的给分很低。因为在wording方面是不同的,而且embedding metrics没有办法将显著的词分离出来。
* 人的评分很低,而embedding metrics的给分很高。因为有两个词在词向量空间上是非常接近的,但是从语义上来看,这proposed response和context非常的不适合。
* 而对这两个例子,BLEU-N的评(N > 1)都接近0讨论
Constrained tasks: 一般是把对话系统分为dialogue planner和natural language generation模块。因为把dialogue acts mapping到一个自然语言句子的过程比较接近MT, 所以BLEU metrics在这个方面的任务中可能是使用的。但是仍需要验证。
Incorporating multiple responses: 就是在评估的时候不只有一个ground truth response,而是用retrieval的方法选出多个可能的response。效果以及对word-overlap metrics的影响仍需要检验。
Searching for suitable metrics: 本文只是对现有的metrics进行了批判,但是没有提出新的可行的metrics,但是他们认为embedding-based是一个可行的方向,如果它能够扩展为可把更复杂的模型(for medeling sentence-level compositionality)考虑进去的话。考虑到上下文或者其他utterance的metrics也可能可行。一个模型需要通过human survey的data来学到human-like的打分。
我应该先看这个再看towards那个文章的… 这个应该是towards的前身,感觉就是对比啊评估啊之类的工作考虑的比较充分。实验方法还是值得借鉴一下。