文章目录
强化学习过程
对于机器:先采取动作再接受环境的状态和奖励
对于环境:接受机器的动作,做出下一个的状态和奖励
马尔科夫决策过程
s0当前的状态,a0当前的动作,r1当前的奖励…马尔科夫决策下一刻的状态只和当前状态有关,和之前无关
RL优化函数
强化学习的目标使Rt最大化
1.每一时刻加起来的R(e.p.人一辈子的幸福度)
2.t时刻之后的幸福度
3.从t时刻开始,对未来每一个时刻加一个折扣(下一刻加一个折扣,下下一个两个折扣)。越靠近现在的奖励越在乎,越考后的奖励
4.3化简
RL算法种类
- 通过价值选行为:q learning, sarsa( 使用表格学习)和deep q network(使用神经网络学习)
- 直接输出行为:policy gradients
- 想象环境并从中学习:model based RL
强化学习方法
Model-free 和 Model-based
- Model-free 的方法有很多, 像 Q learning,Sarsa,Policy Gradients
都是从环境中得到反馈然后从中学习.而 model-based RL 只是多了一道程序, 为真实世界建模, 也可以说他们都是
model-free 的强化学习, 只是 model-based 多出了一个虚拟环境。 - Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略。
基于概率 和 基于价值
- 基于概率是强化学习中最直接的一种, 能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法根据最高价值来选着动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他.
- 对于选取连续的动作, 基于价值的方法是无能为力的.而基于概率的方法的优点之一是用一个概率分布在连续动作中选取特定动作。
- 基于概率: Policy Gradients
- 基于价值:Q learning,Sarsa 等
- Actor-Critic:actor 会基于概率做出动作, 而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.
回合更新 和 单步更新
- 回合更新制:Monte-carlo learning 和基础版的 policy gradients 等
- 单步更新制:Qlearning, Sarsa, 升级版的 policy gradients 等
- 单步更新更有效率, 所以现在大多方法都是基于单步更新
在线学习 和 离线学习
- 最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda
- 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network.
相关概念
状态S | 机器感知到的环境描述。一个具体的地方和时刻,一个具体的即时配置 |
动作空间A | 机器可以采取的行动的集合 |
奖励R | 环境反馈给机器一个奖赏 |
Q值 | 在当前状态采取某个动作,使t+1时刻折扣未来奖励的最大值(未来每一步都采取最优策略的情况的累计折扣奖励值) |
Q(s,a)=r+γmaxQ中γ | 奖励递减值(折扣值) |
α | 学习效率来决定这次的误差有多少是要被学习的,是一个小于1 的数 |
EPSILON | 贪婪度 决定每回合采取最优动作的几率 |
Qlearning | 一个基于值的强化学习算法,利用 Q 函数寻找最优的「动作—选择」策略,找到当前状态下使得Q值最大的动作a,作为最佳策略 |
Sarsa | 决策部分和 Q learning 一样, 使用的是 Q 表的形式决策, 在 Q 表中挑选值较大的动作值施加在环境中来换取奖惩.不同的地方在于 Sarsa 的更新方式是不一样的. |
单步更新 | 虽然每步都更新,但直到获取宝藏上一步才获得更新,之前的步都认为和宝藏没有关系 |
回合更新 | 等到这回合结束, 才开始对本回合所经历的所有步都添加更新, 但是这所有的步都是和宝藏有关系的 |
Lambda | lambda=0时为单步更新,1为回合更新。在 0 和 1 之间为脚步衰减值,相当于离宝藏越近越重要 |
基于value | qlearning、sarsa 根据最高价值来选着动作 |
基于概率 | 强化学习中最直接的一种, 通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 所以每种动作都有可能被选中, 只是可能性不同 |
在线学习 | sarsa。必须是本人在场,学着自己在做的事情,说到做到 |
离线学习 | Qlearning 可以选择自己行动,也可以选择看着别人行动,通过看别人行动来学习别人的行为准则,从过往的经验中学习,但是这些过往的经历没必要是自己的经历,任何人的经历都能被学习 |