强化学习 之 简介

14 篇文章 0 订阅
13 篇文章 1 订阅

在这里插入图片描述

在这里插入图片描述

(1)观察可以理解为状态的子集
State是整个环境的表达,Observation是智能体所见。比如在游戏中,地图上的某些部分对玩家来说是不可见的,那整个地图是“状态“,玩家可见的部分是“观察“。

(2)基于价值函数的强化学习和基于策略函数的强化学习在使用时的各有何优缺点?应该如何选择?
强化学习里面一直以来就是value based和policy based两路方法,它们各有优劣。Value based 方法强调让机器知道什么state或者state-action pair是好的,什么是坏的。例如Q-learning训练的优化目标是最小化一个TD error [时序差分误差(Temporal-Difference error, TD-error)]:
在这里插入图片描述
这个优化目标很清晰,就是让当前Q函数估计更准。但是这个优化目标并不对应任何策略的目标。强化学习的总目标是给出一个policy,使之能在环境里面很好的完成序列决策任务。

Policy based 方法则正好直接朝着这么目标去优化策略的参数:
在这里插入图片描述
所以Berkeley和OpenAI的人(PPO和TRPO的作者)一般喜欢强调policy based 方法 , 其直接在优化最终的目标。
当然,我们也要知道value based 方法其实往往更方便学习,毕竟其优化目标就是一个TD error,相比policy based方法的目标要容易优化得多。
所以如果我们希望算法能尽快达到一个比较好的效果,可以直接用value based 方法。而如果有足够的时间和算力去训练,那么推荐使用 policy based 方法。

(3)“Jacob Andreas 曾对 DRL 的吐槽 :DRL 的成功归因于它是机器学习界中唯一 一种允许在测试集上训练的方法”,那为什么DRL能在测试集上训练呢?
这里所说的「训练集」和「测试集」是指智能体与环境交互产生的轨迹。在监督学习中,训练集和测试集的分布可能会有差别,导致即使在训练集上表现非常优秀的模型(有可能过拟合)在测试集上的表现也可能欠佳。而强化学习中的环境是给定的,不管是在训练还是测试中,在某个状态采取某个动作之后,下一个状态的分布是固定的,即测试时的环境就是训练时的环境,因此不存在「训练集」和「测试集」分布的差异问题。

漫谈:
1)Jacob Andreas在用监督学习的视角去评价强化学习,但问题在于强化学习并不是一种监督学习,训练集与测试集的概念不适合强化学习。而且强化学习不能直接像监督学习那样获取ground truth,而是需要通过探索尝试接近最优策略,其训练本身比监督学习就更有难度。

2)不仅在强化学习,而其他某些研究领域其实也存在着类似于训练集和测试集分布有差异的问题,比如离线强化学习(Offline RL)研究如何从离线的轨迹数据中进行强化学习训练,这些数据的分布与智能体真实交互产生的数据分布之间可能会有偏差。

3)强化学习虽然在近几年取得了一些成就,但大部分都是在模拟器中进行训练、测试,能够落地到实际生活中的很少。未来,当强化学习从模拟器走向现实世界,也许也会面临着「训练集」和「测试集」分布差异的问题。那个时候强化学习的成功可能才是真正的成功吧。

4)Model-based RL的优势就在于更少的交互次数更多的学习次数,最终效果不受影响的;Model-based RL最终效果还是会受到环境model本身精度不够的影响,导致最终效果往往不如model-free RL。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如果大家喜欢这篇文章的话,希望大家收藏、转发、关注、评论、点赞,转载请注明出自这里。 PS:本随笔属个人学习小结,文中内容有参考互联网上的相关文章。如果您博文的链接被我引用,我承诺不会参杂经济利益;如果有版权纠纷,请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知,谢谢! 还是那句话:不是我喜欢copy,是站在巨人的肩膀上~~

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值