TRPO(trust region policy optimization)(2)

    上一篇讲到了作者要展开优势函数,然后利用对状态的处理来化简函数。这边我一个不太理解的问题在于对优势函数的折扣化,也就意味着随着时间的推移,优势越显得无用,这样看起来是不太合理的,因为优势显然应该是一致的,怎么会随着时间的推迟作用变小呢?重新思考一下,其实在初始态我们是可能遇到所有的状态的,优势函数是对所有的状态做累加,那么初始状态如果遍历了所有状态就可以对所有状态做累加。这边用了一个技巧是借用旧策略的状态分布来作为新策略的状态分布,这样就避免了新策略由于参数问题无法求策略分布的情况。做了这样一个近似后,利用02年一篇文章的结论,当我们使用比例法来获取新策略时,我们可以保证策略的提高的下界,但由于在实际中我们很少使用这么一种方法,所以我们需要考虑一种新的理论来保证策略的提高。

    这里利用了total variation divergence来代替之前的系数,这里面的关系是文章最难懂的部分了,利用了total variation divergence和KL divergence的关系,文章把原来的策略提升下限变成了更加整体的一个问题,因为他考虑了整体的策略的“距离”,而不是之前别人的文章中的简单的策略按比例相加。所以我觉得在这一个地方之所以说更加具有可行性,更加符合实际的观点的原因是策略在更贴近现实的角度上更加合适的被定义了距离。

    然后文章给出了第一个算法,算法的过程是首先要计算每一个策略的优势函数,然后我们利用之前的L函数与KL divergence的差的最大值来求取新的策略,这里其实之前提到的新策略的不等式是不太好理解的,整个不等式又对理论的推导比较重要,所以还是不可以忽视。

    然后,文章进行了最重要算法的推导,由于原来我们使用了一个惩罚系数来控制更新步长,这样导致我们的更新过慢,文章认为应该让算法能够自行控制自己的步长让步长不会太慢,于是引入了对KL divergence的一个约束,之后这个约束由于没办法在实际中广泛的应用,因此作者又考虑了一个KL divergence的期望来代替原本的约束,这样子以后就将最后的问题变成了很合适的样子,这样子就有办法通过采样的方法得到数据,然后就能开始优化的过程了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值