1、自动学习reward function,因为好的reward function很难构造。
这里有一篇深度强化学习劝退文:https://zhuanlan.zhihu.com/p/33936457。
https://zhuanlan.zhihu.com/p/58832418。
2、policy gradient适用于每个action可以从一个分布中得到的情况。
https://zhuanlan.zhihu.com/p/24879932
这篇文章对SCST中的一些公式的进行解释。我认为挺好的,解决了我的一些困惑。
SCST在decoding部分引入了policy gradient来计算梯度。
最后的实验,作者使用 cross entropy Loss来预训练模型,然后使用SCST来训练。这样保证了模型能够有一个比较好的方向,然后在强化。结果是,给模型输入以前没见过的场景图,也能生成正确的描述。