强化学习学习笔记1

最新推荐文章于 2022-05-24 09:44:51 发布

cencen_binbin

最新推荐文章于 2022-05-24 09:44:51 发布

阅读量190

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/cencen_binbin/article/details/109191503

版权

强化学习

基本任务：
Agent如何在复杂不确定的环境中极大化所获得的的奖励。
在这里插入图片描述
基本概念：
Action: Environment接收到的Agent当前状态的输出。
State：Agent从Environment中获取到的状态。
Reward：Agent从Environment中获取的反馈信号，这个信号指定了Agent在某一步采取了某个策略以后是否得到奖励。
Exploration：在当前的情况下，继续尝试新的Action，其有可能会使你得到更高的这个奖励，也有可能使你一无所有。
Exploitation：在当前的情况下，继续尝试已知的可以获得最大Reward的过程，即重复执行这个 Action 就可以了。
深度强化学习（Deep Reinforcement Learning）：不需要手工设计特征，仅需要输入State让系统直接输出Action的一个end-to-end training的强化学习方法。通常使用神经网络来拟合 value function 或者 policy network。
Policy：决定了这agent 的行为，它其实是一个函数，把输入的状态变成行为。两种policy：
在这里插入图片描述
Action Spaces（动作空间）：不同的环境允许不同种类的动作。在给定的环境中，有效动作的集合经常被称为动作空间(action space)。像 Atari 和 Go 这样的环境有离散动作空间(discrete action spaces)，在这个动作空间里，agent 的动作数量是有限的。在其他环境，比如在物理世界中控制一个 agent，在这个环境中就有连续动作空间(continuous action spaces) 。在连续空间中，动作是实值的向量。
Value Function：价值函数是未来奖励的一个预测，用来评估状态的好坏。
Model（模型）：模型决定了下一个状态会是什么样的，就是说下一步的状态取决于你当前的状态以及你当前采取的行为。它由两个部分组成，一个是 probability，它这个转移状态之间是怎么转移的。另外是这个奖励函数，当你在当前状态采取了某一个行为，可以得到多大的奖励
valued-based（基于价值的）：Agent不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。
model-based（有模型结构）：Agent通过学习状态的转移来采取措施。
model-free（无模型结构）：Agent没有去直接估计状态的转移，也没有得到Environment的具体转移变量。它通过学习 value function 和 policy function 进行决策。
强化学习与监督学习对比：
1、强化学习是一种序列数据；
2、learner未知那种行为是正确的；
3、agent 获得自己能力的过程中，其实是通过不断地试错(trial-and-error exploration)；
4、在强化学习过程中，没有非常强的 supervisor，只有一个奖励信号(reward signal)

强化学习的基本特征
1、有不断试错（trial-and-error exploration）的过程，即需要通过探索Environment来获取对这个Environment的理解。
2、强化学习的Agent会从Environment里面获得延迟的Reward。
3、强化学习的训练过程中时间非常重要，因为数据都是有时间关联的，而不是像监督学习一样是IID分布的。
4、强化学习中Agent的Action会影响它随后得到的反馈。

状态（state）
是对世界的完整描述，不会隐藏世界的信息。
观测（observation）
是对状态的部分描述，可能会遗漏一些信息。在深度强化学习中，我们几乎总是用一个实值向量、矩阵或者更高阶的张量来表示状态和观测。

分类
根据强化学习 agent 的不同，我们可以把 agent 进行归类：
1、基于价值函数的 agent。这一类 agent 显式地学习的是价值函数，隐式地学习了它的策略。因为这个策略是从我们学到的价值函数里面推算出来的。
2、基于策略的 agent，它直接去学习 policy，就是说你直接给它一个 state，它就会输出这个动作的概率。在这个 policy-based agent 里面并没有去学习它的价值函数。
3、把 value-based 和 policy-based 结合起来就有了 Actor-Critic agent。这一类 agent 就把它的策略函数和价值函数都学习了，然后通过两者的交互得到一个最佳的行为。

model-based和model-free的区别
针对是否需要对真实环境建模，强化学习可以分为有模型学习和免模型学习。有模型学习是指根据环境中的经验，构建一个虚拟世界，同时在真实环境和虚拟世界中学习；免模型学习是指不对环境进行建模，直接与真实环境进行交互来学习到最优策略。总的来说，有模型学习相比于免模型学习仅仅多出一个步骤，即对真实环境进行建模。免模型学习通常属于数据驱动型方法，需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略。免模型学习的泛化性要优于有模型学习，原因是有模型学习算需要对真实环境进行建模，并且虚拟世界与真实环境之间可能还有差异，这限制了有模型学习算法的泛化性。

cencen_binbin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习学习笔记1

强化学习基本任务：Agent如何在复杂不确定的环境中极大化所获得的的奖励。基本概念：Action: Environment接收到的Agent当前状态的输出。State：Agent从Environment中获取到的状态。Reward：Agent从Environment中获取的反馈信号，这个信号指定了Agent在某一步采取了某个策略以后是否得到奖励。Exploration：在当前的情况下，继续尝试新的Action，其有可能会使你得到更高的这个奖励，也有可能使你一无所有。Exploitation
复制链接

扫一扫