强化学习 - 概述

强化学习-概述

课程来自 Udacity-Reinforcement Learning(2017)- 1.Smoov & Curly’s Bogus Journey 的笔记整理

强化学习的”Hello-world”

hello game

规则

  • 绿色是目标
  • 红色是失败
  • 黑色是
  • start是开始点
  • 你要找到一条从start目标的路径

思考

  1. 如果给定一个附加概率:按着想法走的0.8,不按想法走的0.2。如果我们假定正确序列是”UURRR”.则这个序列最终能到终点的概率是?

答:如果按照正确的指令 UURRR走是可达的:概率是 0.85=0.32768 .但如果错误 也有一种RRUUR可达,这种前4次是错误的,第五次正确。发生概率是 0.140.8=0.0008 。总计 0.0008+0.32768=0.32776

强化学习 - 概述

与机器学习中概念进相比

  • 监督学习:给定多组 (x,y) ,拟合出一个Loss 最低的 f(x)
  • 无监督学习:给定多组 x ,找到一组函数集可以联合描述 x 的变化特性。
  • 强化学习:与监督学习相似,给定多组 (x,y) ,同时一个抉择向量 z 。强化学习可以称之为监督学习的扩展,扩展了一套决策方案而并非单一的 GD

定义

特性

  • 提供了关于Decision Making在机器上的实现方案
  • 基于计算机尝试不按既定规则的权利
  • 通过奖励函数来使看似随机的函数行为变得可控
  • 通过 延迟奖励使得决策注重整体,而非局部最优
  • 通过 回滚决策 对一系列决策进行判断,尝试寻找问题的所在

与传统监督学习的区别

  • 延迟奖励:强化学习的驱动是每次按规则给每个状态丢到另一个状态。但具体这个决策好或者不好,只有在之后的特定条件时才会知道。比如下棋,当经过60步后你赢的了棋局。这时你才明白这60步的决策是好是坏。
  • 得到奖励后回滚我所做的抉择,分析是那些决策导致我获得了一个好的或是坏的决策

核心-决策框架 - Markov Decision Processes (MDP)

过程

  1. 状态 - 决策时可能经历的状态集,上面例子为4X3的区域(包括上面游戏中的墙)
  2. 传递模型 - T(s|s,a) s状态,a动作s' 为下一个状态。注意传递模型的下一个状态,只依赖于当前状态 s
  3. 动作 - 所有被允许的决策动作
  4. 奖励函数 - 通过过程或者最终结果对当前执行行为进行评定。比如上例,如果最后结果是 green 那么就+1分,如果结果是red-1分
  5. 结果

    policy(规则):一个函数,输入一个状态返回一个动作,一个

    MDPtips

    • MDP框架的核心是让程序关注我在哪里,该做什么,是否会得到的奖励,而并非去计划”我后面的15 20步子该怎么走”
    • MDP的关键是奖励函数的设置,最终规则集合包含了一系列奖惩措施

    关于奖励

    概述

    • 奖励是让学习算法衡量决策好坏的标准
    • 当我们想让获得的决策尽量步数少时,可以将默认奖励值设置为一个不大的负数单位:走过步数的平均要小于且与终止``吸收态有一定的数值距离

    影响奖励的几大因素

    1. 默认奖励数值
    2. 吸收态奖励数值
    3. 剩余的时间步
    4. 每一步的偏差发生率(不按规定执行的概率)

    一个关于奖励区别的例子

    • 这是一个关于默认奖励不同的情况的两个例子,上面的区块默认奖励为+2,下面的默认奖励为-2
    • 对于上面的而言,奖励为正值。为了能获得到更多的奖励,我们不能让程序进入停止游戏区间,最好的办法就是撞墙(不断的停留原地所以获得奖励)
    • 对于下面的区间,由于奖励为负值,我们需要尽快的离开游戏。右下角的方向为上的原因是,如果当前为其他方向,那么肯定会有至少一个-2出现在奖励序列里。所以最好的方法是:直接终止,取得那个-1的红色区间
    • 通过这个例子可以看出,当奖励函数不同,强化学习最后得到的规则集合也是截然不同的。

    偏向稳定性

    定义

    如果有两个时间序列 A: s0,s1.s2 与B: s0,s1,s2 ,如果 A>B 则 AB 的去掉相同元素的子序列仍然满足 s1,s2>s1,s2 。我们称这种现象为偏向稳定性

    偏向稳定性与奖励序列

    强化学习中,奖励是一个序列性的问题,也就是状态序列。学习的目的是希望最后能得到的总奖励最高。但请一定要注意时序的长短问题,即时间长度是否无限

    • 看上面的例子,如果问当上面情况一直重复时,哪个会更好?
    • 答案是:两者都一样
    • 看似下面的奖励要比上面多,因为有部分+2出现。但当时间无限时,上面得到的奖励:

      limn+n=
      同样下边序列
      14
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值