策略梯度—强化算法

构建一个神经网络,输入为观测量,输出为选取每一行为的概率:

  1. 首先,让神经网络策略多次参与游戏,然后在每个步骤中计算出使选择的行为更有可能发生的梯度,但暂时不要应用这些梯度。
  2. 连续进行几次游戏后,计算每一个行为的优势 V k ( a ) = ∑ n = k N R n γ n − k V_k(a)=\sum\limits_{n=k}^N{R_n\gamma^{n-k}} Vk(a)=n=kNRnγnk,即采取了行为a后,获得的奖励和之后获得的奖励的加权和,权值为等比数列,比值 γ \gamma γ称为折价系数,最后对所有行为的优势采取Z-Score标准化。
  3. 如果某一行为的优势是正的,则意味着该行为可能是好的,我们就可以应用先前计算的梯度,以使将来更有可能选择该行为。 但是,如果该行为的优势为负,则意味着该操作可能很糟糕,则需要应用相反的梯度,以使该行为在将来的可能性较小。 解决方案只是将每个梯度向量乘以相应行为的优势。
  4. 最后,计算所有所得梯度向量的平均值,并使用其执行“梯度下降”步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值