How NOT To Evaluate Your Dialogue System

猫猫猫玺

于 2017-06-28 16:33:50 发布

阅读量725

点赞数

分类专栏： NLP-理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010578264/article/details/73849712

版权

NLP-理论专栏收录该内容

4 篇文章 0 订阅

订阅专栏

简介

这个文章的工作：指出现存的metric的缺点，提出一个更好的metric的建议。

chatbot最大的难题就是，给定一个context，valid response会非常的多。文章从word-based 以及word-embedding based similarity metrics读评估不同的模型（retrieval & generative）的表现。
word based: BLEU, METEOR, ROUGE之类的常见方法
word-embedding based: word2vec
当他们用embedding-based metrics的时候，他们发现虽然有些模型在很多metrics和domains上都表现很好，但是这些metrics和人类评估的相关性依然很弱。他们从三个方面来评估这些metrics的弱点：
1. 对结果的统计分析
2. 对一些例子的定性分析
3. 对这些metrics的灵敏度的探索

相关工作

PARRDISE:
MeMo: 评估对话系统和模拟用户的交互
文章想要关注的是model-independent的metrics，所以他们不考虑word perplexity，也不考虑retrieval-based中的recall。

Evaluation Metrics

ground truth responses： $R$
proposed responses: $\hat{R}$
长度都是 $N$

word overlap-based metrics

BLEU, METEOR, ROUGE之流

Embedding-based metrics

Greedy Matching：从特性上来讲，会更倾向于key words和ground truth response中语义相近的回复。不是sentence-level的
Embedding Average：sentence-level的。就是把句子的所有词的embedding做了一个平均，然后计算r和 r^ 之间的cosine距离
- Vector Extrema：也是sentence-level的，想法很简单明确，忽略那些common word，认为那些携带有重要信息的词在向量空间上是比较突出的。（应该是这么理解的吧）
- 然后文章介绍了比较常用的dialogue system模型。
  - 基于TF-IDF的retrieval based model，还分为C-TFIDF（针对context之间的cosine距离）和R-TFIDF（针对input context和response之间的cosine距离）
  - Dual Encoder模型
  - LSTM语言模型
  - HERD模型（Hierarchical Recurrent Encoder-Decoder）
  然后分析了一下结论：
  用embedding-based metrics，可以较为明显的显示出DE模型比TF-IDF要好，HERD模型比LSTM要好，同时HERD模型和DE模型在Ubuntu数据集上的表现差不多。但是这并不能说明这个metrics就能够较好的捕捉到对话中的信息，因为这个模型和人的打分情况的相关性依然非常的弱。
  
  Human Correlation Analysis
  
  数据集描述：
  
  给定上下文和一个回复，给这个回复的合适性打分。问题们对应有20种不同的上下文，对应5个回复：1. 从测试集中随机挑的；2-4：上面说的算法产生的；5：人的回复。
  有25个人来对此进行1-5的打分，并且对这些打分做了一致性检验(cohen kappa score)，去掉了2个kappa系数很低的。
  
  Kappa 系数：用来衡量两种标注结果的吻合程度，标注指的是把N个样本标注为C个互斥类别
  
  结果分析
  
  对metrics的结果和人的打分做了Pearson correlation和Spearman correlation
  
  Pearson 系数：
  Spearman 系数
  
  并没有哪个metrics和人类的评价有较强的相关性。
  而且他们去除停用词和标点之后再次使用BLEU，并且比较他们和人评价的相关性，发现BLEU对那些不影响到句子语义的因素是非常敏感的。
  他们还检验了长度对于metrics效果的影响，（文章这个地方还标错了分析结果对应的表<(￣3￣)> ）相比于Embedding Average和人的评价，BLEU和METEOR对于长度是比较敏感的。【是通过不同长度的response得到的评分mean score，然后通过P-value来看长度使得分数变化的显著性吗？】
  
  定性分析
  
  用两个例子来分析：
  * 人的评分很高，而embedding metrics的给分很低。因为在wording方面是不同的，而且embedding metrics没有办法将显著的词分离出来。
  * 人的评分很低，而embedding metrics的给分很高。因为有两个词在词向量空间上是非常接近的，但是从语义上来看，这proposed response和context非常的不适合。
  * 而对这两个例子，BLEU-N的评（N > 1）都接近0
  
  讨论
  - Constrained tasks: 一般是把对话系统分为dialogue planner和natural language generation模块。因为把dialogue acts mapping到一个自然语言句子的过程比较接近MT，所以BLEU metrics在这个方面的任务中可能是使用的。但是仍需要验证。
  - Incorporating multiple responses: 就是在评估的时候不只有一个ground truth response，而是用retrieval的方法选出多个可能的response。效果以及对word-overlap metrics的影响仍需要检验。
  - Searching for suitable metrics: 本文只是对现有的metrics进行了批判，但是没有提出新的可行的metrics，但是他们认为embedding-based是一个可行的方向，如果它能够扩展为可把更复杂的模型（for medeling sentence-level compositionality）考虑进去的话。考虑到上下文或者其他utterance的metrics也可能可行。一个模型需要通过human survey的data来学到human-like的打分。
  我应该先看这个再看towards那个文章的… 这个应该是towards的前身，感觉就是对比啊评估啊之类的工作考虑的比较充分。实验方法还是值得借鉴一下。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。