强化学习Path Consistency Learning(PCL)理解
这篇论文将soft Q-learning算法和文本生成任务联系了起来,论文中提到当前的基于强化学习的文本生成方法会有一个问题:生成文本用到的词表太大(比如5W这样的规模),当用强化学习逐个生成文字时,会导致代理的动作空间很大。首先PCL在强化学习中引入了熵,也就是在代理每一次决定执行的动作时,即要考虑奖励最大化,也要考虑当前步的熵要最大,也就是。具体推导看上面那个zhihu帖子,目前对PCL的理解,就是引入熵满足了随机性,从而在采样的时候能尽量充分的探索动作空间。这一项可以简单理解为单步的熵。
原创
2024-04-26 15:26:36 ·
283 阅读 ·
0 评论