TOWARDS AN AUTOMATIC TURING TEST: LEARNING TO EVALUATE DIALOGUE RESPONSES

Introduction

还是先说了一通在non-task-oriented方面的对话自动评测的重要性,以及现存的方法的不足。
BLEU: biased,不能注意到语义层面的信息,但是又没有可替代的别的方法。可见需求是多么的急切。
收集了人类对于各种对话的回复的评分作为数据集,来训练一个自动评分模型(ADEM)

数据集

从不同的模型中选了各种备选回复:

  • TF-IDF retrieval-based model 选出的回复
  • Dual Encoder 选出的回复
  • hierarchical recurrent encoder-decoder 生成的回复
  • 人的回复:

*

崩溃,写了一坨结果没保存,然后显示退出登录一刷新就没了。关于文章的具体内容paperweekly的讨论中有人有写。这里就不再写了,写不动了。


虽然被没保存气得不行,还是继续记一下。
感觉VHRED模型用ADEM来评估的效果想想就很好呀??结构应该挺相似的吧?然后虽然论文对模型的泛化能力进行了评估,但是只是针对同一个数据集上不同的生成算法进行的实验,如果换了数据集的话,感觉效果会很不稳定?作者也说是在这里挖下了一个坑。以及人的打分对这个算法的影响,这个文章中也有说。这种需要人为标注&预训练的模型存在的问题还是有的。
作者还提到的一个坑是,评估对话系统与人类进行有意义的互动的能力。(感觉不错哦)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值