Deep Reinforcement Learning for Dialogue Generation-关于生成对话的深度强化学习(3)

2401_87019170

于 2024-09-05 06:05:19 发布

阅读量932

点赞数 14

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_87019170/article/details/141910158

版权

策略采取一个LTSM编码-译码器的形式（也就是，PRL(pi+1|pi,qi)）并通过其参数定义。注意到策略是一个随机表示的（在动作给定状态上的概率分布），一个确定性的策略将导致不连续目标，且该目标难于使用基于梯度算法进行优化。

3.4 奖励

r表示每一个行动获得的奖励。

简化回答：由机器生成的行为应该很容易回应，这部份与其前向函数有关。提出的方法使用负对数似然表示对应的迟钝反应的对话来简化回答。手动构造一个迟钝反应的列表S，比如“我不知道你在干什么”，“我没有主意”等等。这在SEQ2SEQ对话模型中可以经常被发现，奖励函数可以用下式表达：

5fffcd3e04587e0822c9b3d294d45ebeebcb7fc9

e7e9a32c0853869d30d465ae6c2fb6e391b7548d

pseq2seq表示似然输出，另外注意到pseq2seq与随机策略函数PRL(pi+1|pi,qi)不同，前者的学习是基于SEQ2SEQ模型的MLE目标，而后者是对在RL集中的长期未来奖励的策略优化。r1是进一步扩大为目标长度S。

707f0d188c13db8a8d8f16f320b8f05b88b8125a

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。