强化学习-赵世钰(九):策略梯度方法(Policy Gradient Methods)【表格-->函数(NN)】【REINFORCE algorithm<-->基于MC方法】

 

一、Basic idea of policy gradient

二、Metrics to define optimal policies

1、The average value

1.1 average state value

1.2 average one-step reward

2、Remarks

3、Excise

三、Gradients of the metrics

四、Gradient-ascent algorithm

1、REINFORCE algorithm




强化学习导论(十三)- 策略梯度法 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值