学习笔记-增强学习

增强学习


概括: 增强学习的一个简单的定义就是学习基于奖励或惩罚的最佳动作。即,在当前状态下,采取何种动作可以获得最大的长期回报。增强学习中学习长期回报的关键在于学习一张有效的Q表——“状态与动作”对应“长期回报”的映射表。
根据上面的描述,有两个问题需要解决:
1. 如何有效的计算长期回报?
Q(s,a) = (1-学习速率)* Q(s,a)+学习速率*(r+折扣率*max_a(Q(s’,a)))
2. 如何快速有效地建立一张Q表?
a. 蒙特卡罗方法
b. 神经网络


增强学习的一个简单定义就是学习基于奖励或惩罚的最佳动作。
在增强学习中有三个概念:状态、动作和回报。“状态”是描述当前情况的。对一个正在学习行走的机器人来说,状态是它的两条腿的位置。对一个围棋程序来说,状态是棋盘上所有棋子的位置。“动作”是一个智能体在每个状态中可以做的事情。给定一个机器人两条腿的状态或位置,它可以在一定距离内走几步。通常一个智能体只能采取有限或者固定范围内的动作。例如一个机器人的步幅只能是0.01米到1米,而围棋程序只能将它的棋子放在19×19路棋盘(361个位置)的某一位置。

当一个机器人在某种状态下采取某种动作时,它会收到一个回报。这里的术语“回报”是一个描述来自外界的反馈的抽象概念。回报可以是正面的或者负面的。当回报是正面的时候,它对应于我们常规意义上的奖励。当回报是负面的时候,它就对应于我们通常所说的惩罚。

这些概念看起来都很简单直接:我们一旦知道了状态,就可以去选择一个(希望)能带来正面回报的动作。然而现实却复杂的多。

举一个机器人通过学习穿越迷宫的例子。当机器人向右移动一步时它到达一个活路的位置,然而当它向左移动一步时也到达一个活路的位置。机器人连续向左走了三步后它撞到了墙。回想起来在位置1采取向左行走是一个坏主意(坏动作)。那么机器人是如何在每个位置(状态)利用回报信息来学习穿越迷宫的(这是最终目标)?

“真正”的增强学习或者当前用作机器学习方法的增强学习版本,都关注自己的长期回报而不仅仅是当前的即时回报。

长期回报是在一个智能体跟外界交互时通过许多试错中学习到的。一个走迷宫的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值