李宏毅深度强化学习(国语)课程(2018) 笔记(一)Policy Gradient (Review)

李宏毅深度强化学习(国语)课程(2018)

 https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.all.click&vd_source=a4c529a804be1b8a88658c292d9065f9

         PPO是Policy Gradient的变形。由on policy 变为off policy后,加些constraint,就变成了PPO。

        强化学习三要素,Actor,Environment,Reward Function。

         Actor 的行为由Policy控制。Policy部分通常是一个 Neural Network函数。

        举例说明Actor是如何与环境互动。设计observation,让机器看到什么样的游戏画面是比较有效的。

         注意:一场游戏叫做一个Episode,一个Episode的奖励总和叫做Total reward,Actor的目的是想办法去Maximize可以得到的Reward。

         一场游戏里面,把(sa)序列对按顺序组合起来,就是Trajectory。假设控制Actor的Network的参数θ已给定,可计算每个Episode里面发生这个Trajectory的几率。

        由于Actor在同一state下,产生的行为有随机性,Environment在给定action后,产生的新的state也具有随机性,所以,R(T)是一个random variable。但是,给定θ条件下,R(T)的期望值是能够计算的。

        R(T)的期望值的算法就是穷举所有可能的Trajectory \tau,即根据θ计算某一个\tau出现的概率,然后计算\tau的Total Reward。但是,p_{\theta }(\tau)通常是未知的,因此,需要找到一个合适的计算方法。

  Policy Gradient 采用Gradient descent方法Maximize Reward。

当Policy为Neural Network函数时, \bigtriangledown log^{}p_{\theta }(a_{t}^{n}|s_{t}^{n})相当于监督学习中的神经网络中的反向传播(梯度下降)。

 

        如果采取任何动作, Total Reward均为正,那么所有动作的概率都要提升,在动作的概率和相加为1的情况下,动作概率的调整就不科学。

 

 

        同一场游戏里面,也许有些动作是好的,有些动作是不好的,假设游戏最终的结果是好的,并不代表每一个行为都是对的,结果不好,并不代表里面的每一个行为都是错的。需要sample足够多。因为sample不够多,需要给每一个state的action合理的credit,对分数的贡献是多少。只计算从这个action执行以后所得到的reward。

        现在假设在某一个state执行某一个action,相较与其他可能的action,有多好。在意的不是一个绝对的好,而是说在同样的state的时候,执行某一个action,相较与其他可能的action,有多好。

 

加入折扣因子。 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Interesting AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值