强化学习-个人笔记

最新推荐文章于 2024-07-26 00:00:23 发布

高子熠

最新推荐文章于 2024-07-26 00:00:23 发布

阅读量781

点赞数 25

文章标签：笔记

本文链接：https://blog.csdn.net/gaotianhao123/article/details/134838038

版权

强化学习

Reinforcement learning(RL)

agent(智能体)在一个复杂不确定的环境（enviroment）里边极大化它能获得的奖励。

状态（state)---->动作（action) 反应（reward) ，获得最大的收益(return)

在这里插入图片描述

特点：

1.**试错学习：**强化学习一般没有直接的指导信息，Agent要不断与Environment进行交互，通过试错的方式来获取最佳策略（Policy)

2.**延迟回报：**强化学习的指导信息很少，而且往往是事后（最后一个状态（state)才能给出。

在这里插入图片描述

按照环境是否已知划分：免模型学习（Model-Free) vs 有模型学习（Model-Based)

Model-Free:不去学习和理解环境，环境给什么信息就是什么信息，Policy optimization 和 Q-learning

Model-Based:去学习和理解环境，学会用一个模型来模拟环境，通过模拟的环境来得到反馈**（环境是不可知的）**

按照学习环境划分：基于策略（Policy-Based)和基于价值（Value-Based)

On-Policy是指agent必须本人在场，并且一定是本人边玩边学习。典型的算法为Sarsa。
Off-Policy是指agent可以选择自己玩，也可以选择看着别人玩，通过看别人玩来学习别人的行为准则，离线学习同样是从过往的经验中学习，但是这些过往的经历没必要是自己的经历，任何人的经历都能被学习，也没有必要是边玩边学习，玩和学习的时间可以不同步。典型的方法是Q-learning，以及Deep-Q-Network。

按照学习目标划分：基于策略（Policy-Based）和基于价值（Value-Based）。

在这里插入图片描述

Policy-Based的方法直接输出下一步动作的概率，根据概率来选取动作。但不一定概率最高就会选择该动作，还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。（概率）
Value-Based的方法输出的是动作的价值，选择价值最高的动作。适用于非连续的动作。常见的方法有Q-learning、Deep Q Network和Sarsa。（价值）
更为厉害的方法是二者的结合：Actor-Critic，Actor根据概率做出动作，Critic根据动作给出价值，从而加速学习过程，常见的有A2C，A3C，DDPG等。

Value-Based: 学习的是价值函数，当前状态下执行哪个动作的价值最高则选择哪个动作执行

Policy-Based: 学习的是采用当前策略下下一步动作的概率，一般会综合整体情况选择下一步的策略

在Q-learning中，我们维护一张Q值表(动作价值函数表），表的维数为：状态数S * 动作数A，表中每个数代表在当前状态S下可以采用动作A可以获得的未来收益的折现和。我们不断的迭代我们的Q值表使其最终收敛，然后根据Q值表我们就.可以在每个状态下选取一个最优策略。

exploration/exploitaion (探索和利用)

随机选择动作还是利用已有的信息选择动作---->epsilon贪婪策略：

我们指定一个探索速率「epsilon」，一开始将它设定为 1。这个就是我们将随机采用的步长。在一开始，这个速率应该处于最大值，因为我们不知道 Q-table 中任何的值。这意味着，我们需要通过随机选择动作进行大量的探索。
生成一个随机数。如果这个数大于 epsilon，那么我们将会进行「利用」（这意味着我们在每一步利用已经知道的信息选择动作）。否则，我们将继续进行探索。
在刚开始训练 Q 函数时，我们必须有一个大的 epsilon。随着智能体对估算出的 Q 值更有把握，我们将逐渐减小 epsilon。

评估现在我们采取了行动并观察了结果和奖励。我们需要更新功能Q（s，a）：