强化学习第一节

梨泰院绅士

已于 2022-03-16 14:51:54 修改

阅读量5.3k

点赞数 3

文章标签：机器学习人工智能算法

于 2022-03-16 14:51:32 首次发布

本文链接：https://blog.csdn.net/qq_44686666/article/details/123525986

版权

强化学习：

基本元素：Agent/Environment/Goal
一开始强化学习就是基于游戏：围棋、Dota、星际争霸等
重要元素：State/Action/Reward
奖励，一般是实数，有可能为0.是根据最终的目标来设定的
核心元素：Policy/Value
策略是个函数，输入状态然后输出行动
价值也是个函数，策略函数取决于价值函数。价值函数一般分为状态价值函数，以及状态行动价值函数。
它们的关系：如下图。
（补充：行动由策略函数决定，策略函数也可以用于树搜索。）
在这里插入图片描述
强化学习的目标：一个好的价值函数，好的价值函数决定好的策略强化学习的主要特点：

Trail and Error试错-就是在不断的尝试中去学习
Delayed Reward 延迟奖励：一个行动可能没奖励，但一定有价值

强化学习的核心问题：Exploration vs Exploitation 之间的权衡也就是勘探vs 利用一般利用的是价值函数（包括状态价值函数、状态行动价值函数）
误差：Error后果：Outcome
1）K-armed Bandit 多臂老虎机特点：无延时奖励，所有奖励均实时，因而只需要学习不同行动所具有的价值
估计行动价值（价值函数）的方法：样本平均法Sample-Average
在这里插入图片描述
策略函数：Greedy 贪婪，也就是Exploitation。具体来讲就是选择价值最大的那个行动去做：
通过初始值的适当选择，能够使得贪婪策略也能及进行足够的Exploration。
展开说说用Sample Average样本平均法来估计价值的过程：
在这里插入图片描述
上图是考虑只有一个状态，没有延迟奖励的情况，Q1指的是某个行动价值的初始值，Qn+1是指在采取这个行动n次之后，也即得到了n次对应的奖励之后对这n次奖励值的一个平均。
2）基于误差来学习（步长为1/n的误差学习法）
在这里插入图片描述
后面这部分里面Qn是我们对于Rn的一个预测，在第n次采取这个行动之后，我们实际得到的奖励是Rn，因此Rn-Qn是实际值与预测之间的一个误差，也就是Error，我们称之Reward Prediction Error奖励预测误差。式子中的1/n称之为步长，或者说是学习率。
在这里插入图片描述
上面的方法中显示了一种新的学习思路，即基于误差来学习，也叫步长为1/n的误差学习法。
在上面的基础上做改进：加权平均，将1/n换为一个常数，更看重最近的奖励。

在算数平均中，价值的初始估计值Q1对于之后的价值估计是没有影响的，而在加权平均中，价值的初始估计值Q1对于之后的价值估计是有影响的。
3）完整的强化学习问题又是怎样的呢？
【拥有多个状态和延迟奖励，并且行动会对未来产生影响的完整的强化学习问题】
用到的是ε-Greedy策略+基于误差的学习法，所要解决的问题是OOXX游戏
前面的基于误差的学习法讨论的是行动价值的学习公式，它的条件是只有一个状态并且没有延迟奖励的情况，但实际情况下有很多状态，并且存在延迟奖励，因此需要进一步得到状态价值函数。价值的定义是未来所能得到的所有奖励之和的估计值。
状态行动价值的学习表达式：
在这里插入图片描述
在St状态下，采取了At这一行动之后，直到游戏结束，我们将实际得到的奖励之和减去旧的估计值，就得到了误差。
对上面的小式子进行优化，将其中的一个组成式子替换一下：

就能得到下面的式子，也就是说不需要等到游戏结束就能够计算出Q(St,At)的新估计值。
在这里插入图片描述
上面的学习方法是Monte Carlo Methods蒙特卡洛方法的雏形。
下面的方法是Temporal-Difference Learning时序差分学习法的雏形：
图片略（在七七的花果山小猴子）

强化学习的特点就在于：从真实的经历中去学习。
Monte Carlo Tree Search蒙特卡洛树搜索：通过假象来进行计划Learning。

MiniMax Tree Search：深蓝就是用的这个搜素树，但这棵树会呈现指数级的增长，所以深蓝还加入了Alpha-Beta Pruning，来有效缩减这棵树的规模，从而提高搜索效率。
Monte Carlo Rollout算法：只有一层叶结点，然后每个结点往后跑直到结束，将胜率作为价值赋予叶结点，这个价值称为rollout 价值。

【声明：本文是自用文章，图片来源于B站UP主PenicillinLP】