How NOT To Evaluate Your Dialogue System

简介

这个文章的工作:指出现存的metric的缺点,提出一个更好的metric的建议。

chatbot最大的难题就是,给定一个context,valid response会非常的多。文章从word-based 以及word-embedding based similarity metrics读评估不同的模型(retrieval & generative)的表现。
word based: BLEU, METEOR, ROUGE之类的常见方法
word-embedding based: word2vec
当他们用embedding-based metrics的时候,他们发现虽然有些模型在很多metrics和domains上都表现很好,但是这些metrics和人类评估的相关性依然很弱。他们从三个方面来评估这些metrics的弱点:
1. 对结果的统计分析
2. 对一些例子的定性分析
3. 对这些metrics的灵敏度的探索

相关工作
  • PARRDISE:
  • MeMo: 评估对话系统和模拟用户的交互
    文章想要关注的是model-independent的metrics,所以他们不考虑word perplexity,也不考虑retrieval-based中的recall。
Evaluation Metrics

ground truth responses: R
proposed responses: R^
长度都是 N

word overlap-based metrics

BLEU, METEOR, ROUGE之流

Embedding-based metrics
  • Greedy Matching:从特性上来讲,会更倾向于key words和ground truth response中语义相近的回复。不是sentence-level的
  • Embedding Average:sentence-level的。就是把句子的所有词的embedding做了一个平均,然后计算r r^ 之间的cosine距离

    • Vector Extrema:也是sentence-level的,想法很简单明确,忽略那些common word,认为那些携带有重要信息的词在向量空间上是比较突出的。(应该是这么理解的吧)
    • 然后文章介绍了比较常用的dialogue system模型。

      • 基于TF-IDF的retrieval based model,还分为C-TFIDF(针对context之间的cosine距离)和R-TFIDF(针对input context和response之间的cosine距离)
      • Dual Encoder模型
      • LSTM语言模型
      • HERD模型(Hierarchical Recurrent Encoder-Decoder)

      然后分析了一下结论:
      用embedding-based metrics,可以较为明显的显示出DE模型比TF-IDF要好,HERD模型比LSTM要好,同时HERD模型和DE模型在Ubuntu数据集上的表现差不多。但是这并不能说明这个metrics就能够较好的捕捉到对话中的信息,因为这个模型和人的打分情况的相关性依然非常的弱。

      Human Correlation Analysis
      数据集描述:

      给定上下文和一个回复,给这个回复的合适性打分。问题们对应有20种不同的上下文,对应5个回复:1. 从测试集中随机挑的;2-4:上面说的算法产生的;5:人的回复。
      有25个人来对此进行1-5的打分,并且对这些打分做了一致性检验(cohen kappa score),去掉了2个kappa系数很低的。

      Kappa 系数:用来衡量两种标注结果的吻合程度,标注指的是把N个样本标注为C个互斥类别

      结果分析

      对metrics的结果和人的打分做了Pearson correlation和Spearman correlation

      Pearson 系数:
      Spearman 系数

      并没有哪个metrics和人类的评价有较强的相关性。
      而且他们去除停用词和标点之后再次使用BLEU,并且比较他们和人评价的相关性,发现BLEU对那些不影响到句子语义的因素是非常敏感的。
      他们还检验了长度对于metrics效果的影响,(文章这个地方还标错了分析结果对应的表<( ̄3 ̄)> )相比于Embedding Average和人的评价,BLEU和METEOR对于长度是比较敏感的。【是通过不同长度的response得到的评分mean score,然后通过P-value来看长度使得分数变化的显著性吗?】

      定性分析

      用两个例子来分析:
      * 人的评分很高,而embedding metrics的给分很低。因为在wording方面是不同的,而且embedding metrics没有办法将显著的词分离出来。
      * 人的评分很低,而embedding metrics的给分很高。因为有两个词在词向量空间上是非常接近的,但是从语义上来看,这proposed response和context非常的不适合。
      * 而对这两个例子,BLEU-N的评(N > 1)都接近0

      讨论
      • Constrained tasks: 一般是把对话系统分为dialogue planner和natural language generation模块。因为把dialogue acts mapping到一个自然语言句子的过程比较接近MT, 所以BLEU metrics在这个方面的任务中可能是使用的。但是仍需要验证。

      • Incorporating multiple responses: 就是在评估的时候不只有一个ground truth response,而是用retrieval的方法选出多个可能的response。效果以及对word-overlap metrics的影响仍需要检验。

      • Searching for suitable metrics: 本文只是对现有的metrics进行了批判,但是没有提出新的可行的metrics,但是他们认为embedding-based是一个可行的方向,如果它能够扩展为可把更复杂的模型(for medeling sentence-level compositionality)考虑进去的话。考虑到上下文或者其他utterance的metrics也可能可行。一个模型需要通过human survey的data来学到human-like的打分。

      我应该先看这个再看towards那个文章的… 这个应该是towards的前身,感觉就是对比啊评估啊之类的工作考虑的比较充分。实验方法还是值得借鉴一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值