论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

最新推荐文章于 2020-12-11 07:00:00 发布

weixin_30488313

最新推荐文章于 2020-12-11 07:00:00 发布

阅读量167

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/vpegasus/p/kb_infobot.html

版权

Towards end-to-end reinforcement learning of dialogue agents for information access

KB-InfoBot

与知识库交互的多轮对话模型，放弃符号式的查询语句，转而在知识库上使用soft后验分布来寻找概率最大的信息。

知识库

知识库的数据是常见的（实体关系 head, relation,tail）三元组，本文将其做了一步转化，将三元组数据库转化成表格形式：行为实体(head)的属性(tail)，列为关系(relation)（这里假定各个关系之间相互独立）。并且假定，其中有些数值遗失。(如下图，为电影数据的转化，其中X表示缺失数据) （另外，在测试阶段，不会测试新的实体）

soft-KB 查找

所谓每个实体的概率，即为基于在t时刻之前的所有用户输入，每个实体被提到的条件概率。相较于符号式的查询（hard-KB lookup)，它可以学习到更好的策略，也可以end2end训练。

总览

Belief Trackers

infoBot 有 M个 belief trackers （每个slot（每类关系）对应一个belief tracker)，belief tracker 将user 输入作为input, 输出（belief state)：一个分布（所有可能的slot值），一个概率（用户是否知道此slot的值）. 因为输出的size过大，为提高效率，这里做了一个summary（应用entropy)。

Dialogue policy

本文使用两种策略，一种是规则式的，另一种则应用神经网络。

Training

训练时，因为强化学习收敛较慢，特别是在随机初始化时，所以最初，本文先用模仿学习（imitation learning),即，开始时，belief tracker与policy network模仿规则agent。

转载于:https://www.cnblogs.com/vpegasus/p/kb_infobot.html

weixin_30488313

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

Towards end-to-end reinforcement learning of dialogue agents for information accessKB-InfoBot与知识库交互的多轮对话模型，放弃符号式的查询语句，转而在知识库上使用soft后验分布来寻找概率最大的信息。知识库知识库的数据是常见的（实体关系 head, relation,tail）三元组，本文将其做了一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。