《Learning from Dialogue after Deployment:Feed Yourself, Chatbot!》阅读笔记——持续学习的对话系统

最新推荐文章于 2021-08-02 21:34:38 发布

greenhand2014

最新推荐文章于 2021-08-02 21:34:38 发布

阅读量606

点赞数

文章标签：对话系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kelong1941/article/details/93916240

版权

动机

•语料搜集困难，当前对话系统就是用人与人的语料来训练机器人，没有在人机对话时训练机器人

•人就是在对话中不断通过反馈来学习说话的

•直接利用人机的对话来学习可能导致错误传播，强化学习的思想是通过指标进行反馈，但是人在实际情况下是通过自然语言来进行反馈的

主要工作

•本文提出一个可以在机器人参与的对话中选取训练样本，他可以评估用户对它的回答的满意度，当对话顺利进行就可以将其作为新的对话样本，当它意识到自己犯了错误，就会要一个反馈。这样就不需要额外的注释成本。这样也就获得了两个额外的数据， DIALOGUE examples 防止机器人犯错， FEEDBACK examples用来解决问题。

•获得了三个数据集。一个是机器人部署后的聊天日志，一个是用户的满意度，一个是基于用户反馈获得机器人本应该说的话。

例子

模型

•接口组件：输入输出处理，对话历史储存、候选准备、流程控制（什么时候问什么时候答）

•模型组件：Transformer architecture（弃用RNN、CNN，all is attention的一个网络）

对话和反馈用一个模型（检索问题）：用Transformer来编码对话历史（本文用两轮对话）以及候选回答和反馈，用点乘比较相似度

满意度：用Transformer来编码用现线性层转换为预测的满意度

反馈的类型

直接回馈建议指导多种建议

数据搜集三个任务

•对话：人与人：PariAI数据集机器与人：上述方法收集

•满意度：众包人工评价

•反馈：机器索要反馈：Oops! Sorry. What should I have said instead?（未来工作是如何根据内容来索要反馈）

结果

另建立了一个交流群，感兴趣的朋友可以加下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Learning from Dialogue after Deployment:Feed Yourself, Chatbot!》阅读笔记——持续学习的对话系统

动机•语料搜集困难，当前对话系统就是用人与人的语料来训练机器人，没有在人机对话时训练机器人•人就是在对话中不断通过反馈来学习说话的•直接利用人机的对话来学习可能导致错误传播，强化学习的思想是通过指标进行反馈，但是人在实际情况下是通过自然语言来进行反馈的主要工作•本文提出一个可以在机器人参与的对话中选取训练样本，他可以评估用户对它的回答的满意度，当对话顺利进行就可以将其作为新的对...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。