强化学习 - 概述

最新推荐文章于 2024-03-21 10:09:03 发布

VIP文章万能的仓鼠

最新推荐文章于 2024-03-21 10:09:03 发布

阅读量2.2k

点赞数

分类专栏：强化学习文章标签：强化学习基础

本文链接：https://blog.csdn.net/OkingjerryO/article/details/78568363

版权

强化学习-概述

课程来自 Udacity-Reinforcement Learning（2017）- 1.Smoov & Curly’s Bogus Journey 的笔记整理

强化学习的”Hello-world”

hello game

规则

绿色是目标
红色是失败
黑色是墙
start是开始点
你要找到一条从start到目标的路径

思考

如果给定一个附加概率：按着想法走的0.8,不按想法走的0.2。如果我们假定正确序列是”UURRR”.则这个序列最终能到终点的概率是?

答：如果按照正确的指令 UURRR走是可达的：概率是 $0.8^5 = 0.32768$ .但如果错误也有一种RRUUR可达，这种前4次是错误的，第五次正确。发生概率是 $0.1^4*0.8 = 0.0008$ 。总计 $0.0008+0.32768 = 0.32776$

强化学习 - 概述

与机器学习中概念进相比

监督学习：给定多组 $(x,y)$ ,拟合出一个Loss 最低的 $f(x)$
无监督学习:给定多组 $x$ ,找到一组函数集可以联合描述 $x$ 的变化特性。
强化学习：与监督学习相似，给定多组 $(x,y)$ ,同时一个抉择向量 $z$ 。强化学习可以称之为监督学习的扩展，扩展了一套决策方案而并非单一的 GD

定义

特性

提供了关于Decision Making在机器上的实现方案
基于计算机尝试不按既定规则的权利
通过奖励函数来使看似随机的函数行为变得可控
通过 延迟奖励使得决策注重整体，而非局部最优
通过 回滚决策 对一系列决策进行判断，尝试寻找问题的所在

与传统监督学习的区别

延迟奖励：强化学习的驱动是每次按规则给每个状态丢到另一个状态。但具体这个决策好或者不好，只有在之后的特定条件时才会知道。比如下棋，当经过60步后你赢的了棋局。这时你才明白这60步的决策是好是坏。
得到奖励后回滚我所做的抉择，分析是那些决策导致我获得了一个好的或是坏的决策

核心-决策框架 - Markov Decision Processes （MDP）

过程

状态 - 决策时可能经历的状态集，上面例子为4X3的区域（包括上面游戏中的墙）
传递模型 - $T(s'|s,a)$ s 为状态,a为动作，s' 为下一个状态。注意传递模型的下一个状态，只依赖于当前状态 s
动作 - 所有被允许的决策动作
奖励函数 - 通过过程或者最终结果对当前执行行为进行评定。比如上例，如果最后结果是 green 那么就+1分，如果结果是red 就-1分
结果

policy(规则)：一个函数，输入一个状态返回一个动作，一个

MDPtips
- MDP框架的核心是让程序关注我在哪里，该做什么，是否会得到的奖励,而并非去计划”我后面的15 20步子该怎么走”
- MDP的关键是奖励函数的设置，最终规则集合包含了一系列奖惩措施
关于奖励

概述
- 奖励是让学习算法衡量决策好坏的标准
- 当我们想让获得的决策尽量步数少时，可以将默认奖励值设置为一个不大的负数单位：走过步数的平均要小于且与终止``吸收态有一定的数值距离
影响奖励的几大因素
1. 默认奖励数值
2. 吸收态奖励数值
3. 剩余的时间步
4. 每一步的偏差发生率（不按规定执行的概率）
一个关于奖励区别的例子
- 这是一个关于默认奖励不同的情况的两个例子，上面的区块默认奖励为+2，下面的默认奖励为-2
- 对于上面的而言，奖励为正值。为了能获得到更多的奖励，我们不能让程序进入停止游戏区间，最好的办法就是撞墙（不断的停留原地所以获得奖励）
- 对于下面的区间，由于奖励为负值，我们需要尽快的离开游戏。右下角的方向为上的原因是，如果当前为其他方向，那么肯定会有至少一个-2出现在奖励序列里。所以最好的方法是：直接终止，取得那个-1的红色区间
- 通过这个例子可以看出，当奖励函数不同，强化学习最后得到的规则集合也是截然不同的。
偏向稳定性

定义

如果有两个时间序列 A: ${s_0,s_1.s_2}$ 与B: ${s_0,s_1',s_2'}$ ，如果 A>B 则 AB 的去掉相同元素的子序列仍然满足 ${s_1,s_2} > {s_1',s_2'}$ 。我们称这种现象为偏向稳定性

偏向稳定性与奖励序列

强化学习中，奖励是一个序列性的问题，也就是状态序列。学习的目的是希望最后能得到的总奖励最高。但请一定要注意时序的长短问题,即时间长度是否无限。
- 看上面的例子，如果问当上面情况一直重复时，哪个会更好？
- 答案是：两者都一样
- 看似下面的奖励要比上面多，因为有部分+2出现。但当时间无限时，上面得到的奖励:
  
  $lim n \to + \infty n = \infty$ $\lim_{n \to + \infty } n = \infty$ 同样下边序列
  $1 4$

最低0.47元/天解锁文章

万能的仓鼠

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习 - 概述

强化学习-概述课程来自 Udacity-Reinforcement Learning（2017）- 1.Smoov & Curly’s Bogus Journey 的笔记整理强化学习的”Hello-world”规则绿色是目标红色是失败黑色是墙start是开始点你要找到一条从start到目标的路径思考如果给定一个附加概率：按着想法走的0.8,不按想法走的0.2。如果我们假定正确序
复制链接

扫一扫