强化学习-策略梯度

从现在开始,进行一系列的强化学习笔记,课程主要是结合David Silver 和 李宏毅老师的课程。 David Silver 课程偏理论,而且我个人觉得讲的不是很透彻,对比李宏毅老师的课程就讲的非常深入浅出了。
这节,我们来看看策略梯度算法。
在这里插入图片描述

在这里是状态作为输入,动作作为输出,如上图所示
在这里插入图片描述

以给定的策略,我们可以生成一个episode数据(状态1,动作1,状态2,动作2…)
对于一个episode 数据我们也可以算出他们的概率,如上图

在这里插入图片描述

对于每个(s,a) 状态对,我们维护一个Q表,里面记录着这些状态对的value值。我们的神经网络就是学习这个Q 表,让以上的累加期望回报达到最大。
在这里插入图片描述

在最后的式子中我们看到 只剩下 at/st 这个是因为 我们已经把环境状态之间转移概率给去掉了P(s1 -> s2),因为我们是学习个体agent的行为,而环境属于个体不可控的因素,不是我们学习的内容。
在这里插入图片描述

这个主要是对我们的reward 进行了一个更细致的定义。我们之前是对一个episode里面各个 状态 动作对都是用统一的reward 做权重值,但这显然是不合理的。我们应该考虑每个状态 动作对的reward的差异性,以及他们对未来影响的衰减性,所以也就有了以上的式子表达,最终我们是用一个神经网络去学习这个值。名字叫做 Advantage Function。
以上就是策略梯度的部分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值