NLP-理论
文章平均质量分 85
猫猫猫玺
这个作者很懒,什么都没留下…
展开
-
How NOT To Evaluate Your Dialogue System
简介相关工作Evaluation Metricsword overlap-based metricsEmbedding-based metrics简介这个文章的工作:指出现存的metric的缺点,提出一个更好的metric的建议。chatbot最大的难题就是,给定一个context,valid response会非常的多。文章从word-based 以及word-embedding base原创 2017-06-28 16:33:50 · 725 阅读 · 0 评论 -
RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems
[toc] RUBER全称:Referenced metric and Unreferenced metric Blended Evaluation Routine. Introduction照例把BLEU, METEOR, ROUGE等方法批判一通,lowe的文章的那个方法(towards xxx )需要大量的人工标注,不flexible也不extensible。 RUBER: *原创 2017-06-30 16:26:36 · 728 阅读 · 0 评论 -
adversarial evaluation of Dialogue models- 类似gan的思路来做对话评测
常用的评价方法本文思想modelExperiment分析小总结文章链接:[Adversarial Evaluation of Dialogue Models](https://arxiv.org/abs/1701.08198v1)常用的评价方法:perplexity:从fit层面,但是不能评估在具体任务中的表现N-gram,BLEU:在翻译任务中比较好,不适用于对话human ev原创 2017-06-22 15:27:49 · 605 阅读 · 0 评论 -
TOWARDS AN AUTOMATIC TURING TEST: LEARNING TO EVALUATE DIALOGUE RESPONSES
a原创 2017-06-22 18:34:19 · 581 阅读 · 0 评论