Reinforcement learning (RL) ①

最新推荐文章于 2022-11-25 21:52:44 发布

飞的man

最新推荐文章于 2022-11-25 21:52:44 发布

阅读量562

点赞数

分类专栏：强化学习文章标签：强化学习

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景
强化学习(RL)是一个受行为心理学启发的机器学习领域，它涉及到软件代理应该如何在一个环境中采取行动，从而最大化累积奖励。由于其通用性，在许多其他学科如博弈论、控制理论、操作研究、信息理论、模拟优化、多代理系统、群体智能、统计和遗传算法中，都有相关研究。在operations research和 control literature中，研究强化学习的方法也叫作 approximate dynamic programming。在最优控制理论中已经研究了这个问题，尽管大多数研究涉及最优解及其表征的存在，而不是与学习或近似方面有关。在经济学和博弈理论中，强化学习可以用来解释有界理性下平衡的发生。
在机器学习中，环境通常被表述成为马尔可夫决策过程（MDP），因为这种上下文中的强化学习算法使用动态规划技术。经典技术和强化学习算法的主要区别在于，后者不需要关于MDP的知识，并且它们针对大规模的MDP，这样精确的方法就变得不可行。
加强学习与标准监督学习的不同之处在于，不会提供正确的输入/输出对，也不会明确更正次优的行为。此外，着重于在线性能，其中涉及到探索（未知领域）和利用现有知识之间的平衡。强化学习中对探索与开发关系的权衡已经通过多武装强盗问题和有限的MDP进行了最为深入的研究。

简介
基本的强化学习模型包括：
1)环境(enviroment)和状态集 $S$
2)代理Agent的动作actions集合 $A$
3)从状态过渡到动作的决策policy
4)确定立即奖励的规则
5)描述Agent观察的规则
这些规则往往是随机的。观察通常涉及与最后一次转换相关联的标量即时奖励（Reward）。在许多情况下，代理人也假设遵守当前的环境状态，在这种情况下，我们谈论其完全可观察性，而在相反的情况下，我们谈论部分可观察性。有的时候，代理可用的一系列操作会受到限制，例如，不能花费比所拥有的数额还多的钱。
强化学习Agent以离散的时间步长（片段）与环境相互作用。在 $t$ 时刻，Agent接收观察结果 $o_t$ ,其中通常包括奖励 $r_t$ 。然后，Agent在 $A$ 中选择动作 $a_t$ ， $a_t$ 也会随后反馈给环境。环境将会移动为状态 $s_{t+1}$ 并且与 $(s_t,a_t,s_{t+1})$ 相关联的奖励 $r_1$ 已经被决定。