TOWARDS AN AUTOMATIC TURING TEST: LEARNING TO EVALUATE DIALOGUE RESPONSES

最新推荐文章于 2021-02-09 15:03:21 发布

猫猫猫玺

最新推荐文章于 2021-02-09 15:03:21 发布

阅读量573

点赞数

分类专栏： NLP-理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010578264/article/details/73610135

版权

NLP-理论专栏收录该内容

4 篇文章 0 订阅

订阅专栏

- - Introduction
  - 数据集

Introduction

还是先说了一通在non-task-oriented方面的对话自动评测的重要性，以及现存的方法的不足。
BLEU: biased，不能注意到语义层面的信息，但是又没有可替代的别的方法。可见需求是多么的急切。
收集了人类对于各种对话的回复的评分作为数据集，来训练一个自动评分模型（ADEM）

数据集

从不同的模型中选了各种备选回复：

TF-IDF retrieval-based model 选出的回复
Dual Encoder 选出的回复
hierarchical recurrent encoder-decoder 生成的回复
人的回复：

*

崩溃，写了一坨结果没保存，然后显示退出登录一刷新就没了。关于文章的具体内容paperweekly的讨论中有人有写。这里就不再写了，写不动了。

虽然被没保存气得不行，还是继续记一下。
感觉VHRED模型用ADEM来评估的效果想想就很好呀？？结构应该挺相似的吧？然后虽然论文对模型的泛化能力进行了评估，但是只是针对同一个数据集上不同的生成算法进行的实验，如果换了数据集的话，感觉效果会很不稳定？作者也说是在这里挖下了一个坑。以及人的打分对这个算法的影响，这个文章中也有说。这种需要人为标注&预训练的模型存在的问题还是有的。
作者还提到的一个坑是，评估对话系统与人类进行有意义的互动的能力。（感觉不错哦）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TOWARDS AN AUTOMATIC TURING TEST: LEARNING TO EVALUATE DIALOGUE RESPONSES

a
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。