强化学习笔记2:序列决策(Sequential Decision Making)过程

Agent and Environment

        强化学习研究的问题是 agent 跟环境交互,上图左边画的是一个 agent,agent 一直在跟环境进行交互。

        这个 agent 把它输出的动作给环境,环境取得这个动作过后,会进行到下一步,然后会把下一步的观测跟它上一步是否得到奖励返还给 agent。

        通过这样的交互过程会产生很多观测,agent 的目的是从这些观测之中学到能极大化奖励的策略。

2  Reward

        奖励是由环境给的一个标量反馈信号(scalar feedback signal),这个信号显示了 agent 在某一步采取了某个策略的表现如何。

        强化学习的目的就是为了最大化 agent 可以获得的奖励,agent 在这个环境里面存在的目的就是为了极大化它的期望的累积奖励(expected cumulative reward)。

Sequential Decision Making

        在一个强化学习环境里面,agent 的目的就是选取一系列的动作来极大化它的奖励,所以这些采取的动作必须有长期的影响。

        但在这个过程里面,它的奖励其实是被延迟了,就是说你现在采取的某一步决策可能要等到时间很久过后才知道这一步到底产生了什么样的影响。

        这里一个示意图,就是我们玩这个 Atari 的 Pong 游戏,你可能只有到最后游戏结束过后,才知道这个球到底有没有击打过去。中间你采取的 up 或 down 行为,并不会直接产生奖励。

        强化学习里面一个重要的课题就是近期奖励和远期奖励的一个权衡(trade-off)。怎么让 agent 取得更多的长期奖励是强化学习的问题。

         在跟环境的交互过程中,agent 会获得很多观测。在每一个观测会采取一个动作,它也会得到一个奖励。所以历史是观测(observation)、行为(action)、奖励(reward)的序列:

                                

        Agent 在采取当前动作的时候会依赖于它之前得到的这个历史,所以你可以把整个游戏的状态看成关于这个历史的函数:

                                                         

 3.1 状态和观测的区别

  状态(state) s 是对世界的完整描述,不会隐藏世界的信息。

  观测(observation) o是对状态的部分描述,可能会遗漏一些信息。

3.1.1完全可观测

举个例子,围棋就是完全可观测

观测到的东西,就是环境的状态,同时也是agent的状态

 3.1.2 部分可观测

但是有一种情况是 ,agent 得到的观测并不能包含环境运作的所有状态(比如打牌,打麻将,我们只知道自己的牌型,不知道别人的),因为在这个强化学习的设定里面,环境environment的状态才是真正的所有状态。

  • 比如 agent 在玩这个 black jack 这个游戏,它能看到的其实是牌面上的牌。
  • 或者在玩雅达利游戏的时候,观测到的只是当前电视上面这一帧的信息,你并没有得到游戏内部里面所有的运作状态。

      也就是说此时 agent 只能看到部分的观测,我们就称这个环境是部分可观测的(partially observed)。在这种情况下面,强化学习通常被建模成一个 POMDP (部分可观测马尔可夫决策过程)的问题。

3.1.3 部分可观测马尔科夫问题

  部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔可夫决策过程的泛化。

         POMDP 依然具有马尔可夫性质,但是假设智能体无法感知环境的状态 s,只能知道部分观测值 。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。

 4 决策空间

        不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间(action space)

        像 Atari 和 Go 这样的环境有离散动作空间(discrete action spaces),在这个动作空间里,agent 的动作数量是有限的。

        在其他环境,比如在物理世界中控制一个 agent,在这个环境中就有连续动作空间(continuous action spaces) 。在连续空间中,动作是实值的向量。

例如:

  • 走迷宫机器人如果只有东南西北这 4 种移动方式,则其为离散动作空间;
  • 如果机器人向360^{\circ} 中的任意角度都可以移动,则为连续动作空间。
  • 9
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值