学习笔记-增强学习

最新推荐文章于 2023-08-23 15:21:52 发布

雷梧

最新推荐文章于 2023-08-23 15:21:52 发布

阅读量457

点赞数

分类专栏：机器学习文章标签：增强学习

本文链接：https://blog.csdn.net/lonely_dark_horse/article/details/54411901

版权

增强学习

概括： 增强学习的一个简单的定义就是学习基于奖励或惩罚的最佳动作。即，在当前状态下，采取何种动作可以获得最大的长期回报。增强学习中学习长期回报的关键在于学习一张有效的Q表——“状态与动作”对应“长期回报”的映射表。
根据上面的描述，有两个问题需要解决：
1. 如何有效的计算长期回报？
Q(s,a) = (1-学习速率)* Q(s,a)+学习速率*(r+折扣率*max_a(Q(s’,a)))
2. 如何快速有效地建立一张Q表？
a. 蒙特卡罗方法
b. 神经网络

增强学习的一个简单定义就是学习基于奖励或惩罚的最佳动作。
在增强学习中有三个概念：状态、动作和回报。“状态”是描述当前情况的。对一个正在学习行走的机器人来说，状态是它的两条腿的位置。对一个围棋程序来说，状态是棋盘上所有棋子的位置。“动作”是一个智能体在每个状态中可以做的事情。给定一个机器人两条腿的状态或位置，它可以在一定距离内走几步。通常一个智能体只能采取有限或者固定范围内的动作。例如一个机器人的步幅只能是0.01米到1米，而围棋程序只能将它的棋子放在19×19路棋盘（361个位置）的某一位置。

当一个机器人在某种状态下采取某种动作时，它会收到一个回报。这里的术语“回报”是一个描述来自外界的反馈的抽象概念。回报可以是正面的或者负面的。当回报是正面的时候，它对应于我们常规意义上的奖励。当回报是负面的时候，它就对应于我们通常所说的惩罚。

这些概念看起来都很简单直接：我们一旦知道了状态，就可以去选择一个（希望）能带来正面回报的动作。然而现实却复杂的多。

举一个机器人通过学习穿越迷宫的例子。当机器人向右移动一步时它到达一个活路的位置，然而当它向左移动一步时也到达一个活路的位置。机器人连续向左走了三步后它撞到了墙。回想起来在位置1采取向左行走是一个坏主意（坏动作）。那么机器人是如何在每个位置（状态）利用回报信息来学习穿越迷宫的（这是最终目标）？

“真正”的增强学习或者当前用作机器学习方法的增强学习版本，都关注自己的长期回报而不仅仅是当前的即时回报。

长期回报是在一个智能体跟外界交互时通过许多试错中学习到的。一个走迷宫的

最低0.47元/天解锁文章

雷梧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记-增强学习

增强学习增强学习的一个简单定义就是学习基于奖励或惩罚的最佳动作。在增强学习中有三个概念：状态、动作和回报。“状态”是描述当前情况的。对一个正在学习行走的机器人来说，状态是它的两条腿的位置。对一个围棋程序来说，状态是棋盘上所有棋子的位置。“动作”是一个智能体在每个状态中可以做的事情。给定一个机器人两条腿的状态或位置，它可以在一定距离内走几步。通常一个智能体只能采取有限或者固定范围内的动作。例如一个
复制链接

扫一扫