强化学习-概述
课程来自 Udacity-Reinforcement Learning(2017)- 1.Smoov & Curly’s Bogus Journey 的笔记整理
强化学习的”Hello-world”
规则
- 绿色是
目标
- 红色是
失败
- 黑色是
墙
start
是开始点- 你要找到一条从
start
到目标
的路径
思考
- 如果给定一个附加概率:
按着想法走
的0.8,不按想法走
的0.2。如果我们假定正确序列是”UURRR”.则这个序列最终能到终点的概率是?
答:如果按照正确的指令 UURRR
走是可达的:概率是 0.85=0.32768 .但如果错误 也有一种RRUUR
可达,这种前4次是错误的,第五次正确。发生概率是 0.14∗0.8=0.0008 。总计 0.0008+0.32768=0.32776
强化学习 - 概述
与机器学习中概念进相比
监督学习
:给定多组 (x,y) ,拟合出一个Loss 最低的 f(x)无监督学习
:给定多组 x ,找到一组函数集可以联合描述x 的变化特性。强化学习
:与监督学习
相似,给定多组 (x,y) ,同时一个抉择向量 z 。强化学习可以称之为监督学习
的扩展,扩展了一套决策方案
而并非单一的GD
定义
特性
- 提供了关于
Decision Making
在机器上的实现方案 - 基于计算机
尝试不按既定规则
的权利 - 通过
奖励函数
来使看似随机的函数行为变得可控 - 通过
延迟奖励
使得决策注重整体,而非局部最优 - 通过
回滚决策
对一系列决策进行判断,尝试寻找问题的所在
与传统监督学习的区别
- 延迟奖励:强化学习的驱动是每次按规则给每个状态丢到另一个状态。但具体这个决策好或者不好,只有在之后的特定条件时才会知道。比如下棋,当经过60步后你赢的了棋局。这时你才明白这60步的决策是好是坏。
- 得到奖励后回滚我所做的抉择,分析是那些决策导致我获得了一个
好的
或是坏的
决策
核心-决策框架 - Markov Decision Processes (MDP)
过程
- 状态 - 决策时可能经历的状态集,上面例子为4X3的区域(包括上面游戏中的墙)
- 传递模型 -
T(s′|s,a) s
为状态
,a
为动作
,s'
为下一个状态。注意传递模型的下一个状态,只依赖于当前状态 s - 动作 - 所有被允许的决策动作
- 奖励函数 - 通过过程或者最终结果对当前执行行为进行评定。比如上例,如果最后
结果是 green
那么就+1分
,如果结果是red
就-1分
结果
policy(规则):一个函数,输入一个
状态
返回一个动作
,一个MDPtips
MDP框架
的核心是让程序关注我在哪里,该做什么,是否会得到的奖励,而并非去计划”我后面的15 20步子该怎么走”- MDP的关键是奖励函数的设置,最终规则集合包含了一系列奖惩措施
关于奖励
概述
- 奖励是让学习算法衡量决策好坏的标准
- 当我们想让获得的决策尽量步数少时,可以将默认奖励值设置为一个不大的负数单位:走过步数的平均要小于且与
终止``吸收
态有一定的数值距离
影响奖励的几大因素
- 默认奖励数值
- 吸收态奖励数值
- 剩余的时间步
- 每一步的偏差发生率(不按规定执行的概率)
一个关于奖励区别的例子
- 这是一个关于默认奖励不同的情况的两个例子,上面的区块默认奖励为+2,下面的默认奖励为-2
- 对于上面的而言,奖励为正值。为了能获得到更多的奖励,我们不能让程序进入停止游戏区间,最好的办法就是撞墙(不断的停留原地所以获得奖励)
- 对于下面的区间,由于奖励为负值,我们需要尽快的离开游戏。右下角的方向为上的原因是,如果当前为其他方向,那么肯定会有至少一个-2出现在奖励序列里。所以最好的方法是:直接终止,取得那个-1的红色区间
- 通过这个例子可以看出,当奖励函数不同,强化学习最后得到的规则集合也是截然不同的。
偏向稳定性
定义
如果有两个时间序列 A: s0,s1.s2 与B: s0,s′1,s′2 ,如果 A>B 则 AB 的去掉相同元素的子序列仍然满足 s1,s2>s′1,s′2 。我们称这种现象为
偏向稳定性
偏向稳定性与奖励序列
强化学习中,奖励是一个序列性的问题,也就是状态序列。学习的目的是希望最后能得到的总奖励最高。但请一定要注意时序的长短问题,即
时间长度是否无限
。
- 看上面的例子,如果问当上面情况一直重复时,哪个会更好?
- 答案是:两者都一样
看似下面的奖励要比上面多,因为有部分
+2
出现。但当时间无限时,上面得到的奖励:
limn→+∞n=∞同样下边序列
14