策略梯度—强化算法

喜欢什么的只是说说而已

于 2020-01-16 16:11:31 发布

阅读量185

点赞数

分类专栏： ML

ML 专栏收录该内容

4 篇文章

订阅专栏

构建一个神经网络，输入为观测量，输出为选取每一行为的概率：

首先，让神经网络策略多次参与游戏，然后在每个步骤中计算出使选择的行为更有可能发生的梯度，但暂时不要应用这些梯度。
连续进行几次游戏后，计算每一个行为的优势 $V_k(a)=\sum\limits_{n=k}^N{R_n\gamma^{n-k}}$ ，即采取了行为a后，获得的奖励和之后获得的奖励的加权和，权值为等比数列，比值 $\gamma$ 称为折价系数，最后对所有行为的优势采取Z-Score标准化。
如果某一行为的优势是正的，则意味着该行为可能是好的，我们就可以应用先前计算的梯度，以使将来更有可能选择该行为。但是，如果该行为的优势为负，则意味着该操作可能很糟糕，则需要应用相反的梯度，以使该行为在将来的可能性较小。解决方案只是将每个梯度向量乘以相应行为的优势。
最后，计算所有所得梯度向量的平均值，并使用其执行“梯度下降”步骤。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。