Policy gradient 算法思想

强化学习中基于值与基于策略算法的思想异同点:


相同点:

  都是为了找到正确的策略,以便能够获得最大的奖励


不同点:

   Policy gradient 不通过奖励值,直接输出行为。可以在一个连续的区间内选择动作。其没有误差来参与反向传递,而是通过reward来增加下一次选中该动作的概率 (如果该动作是积极的话)

  而 基于值的算法 比如 Q-learning 会在无穷多个动作中计算价值,选择行为的话,吃不消。由于Q函数能够得到哪个行为是在某一状态下执行的最佳行为,因此,使用 Q 函数来寻找最优策略。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值