TRPO(Trust Region Policy Optimization)(1)

TRPO是一种策略梯度方法,确保策略优化始终向着改善的方向进行。它适用于大型非线性策略优化,如神经网络,且在机器人动作控制等领域表现出色。策略优化主要分为策略迭代、策略梯度和衍生物-自由方法。TRPO通过特定的代理目标函数保证策略改进,并介绍了两种变体:single-path和vine方法。文章讨论了无限时间 horizon 的 MDP 和优势函数的概念,后者衡量动作相对于策略的优劣。
摘要由CSDN通过智能技术生成

    最近是需要看这篇论文的。文章来源于伯克利。

    论文主要是与策略优化相关。对于策略优化,大致可以分为基于模型的与无模型的。基于模型的策略优化主要是传统的优化,大体是利用传统控制器配合上监督学习的方法做策略搜索,可以认为是指导策略搜索。无模型的策略搜索方式主要是与统计相关的与数学有较大联系的搜索方法,包括随机策略搜索方法和确定策略搜索方法,随机策略搜索方法包括策略梯度方法、统计学习方法、路径积分方法。其中,TRPO就是属于策略梯度方法的。而确定策略搜索方法就是DDPG方法。

    我觉得可能很多时候策略的优化是可以用很久的计算做到的,无论策略到底有多么复杂,但是在现有的很复杂的策略搜索例子中,例如围棋,国际象棋等,这些都有在为降低计算量而努力做新的算法,那么问题就是确实在这一方面我们是需要去降低计算量的。

    文章在摘要中提到,这个策略优化方法是与其他优化方法不一样的,他能保证策略的优化总是朝着变好的方向在进步,显然这是很重要的一点,这意味着策略总是会越来越好。当然,这是在做了合理的近似后得到的结果。这个算法类似于natural策略梯度方法,对于大型的非线性策略优化例如神经网络。算法也被证明在机器人的某些动作上能够表现很好,例如机器人的游泳,跳跑等动作。

    现在在策略优化方面主要有三种方法,一是策略迭代方法,通过在当前策略下的值函数求取以及对策略的提升迭代来优化策略。第二种是策略梯度方法,利用通过采样得到的策略轨迹得到的报酬梯度,通过这个梯度来优化策略的参数。第三种是衍生物-自由策略优化方法,可以简单理解为无策略梯度的情况下做的策略优化方法,例如cross-entropy(CEM)以及covariance matrix adaptation(CMA)方法,虽然这两个方法无法直接得到报酬函数,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值