深度强化学习_深度学习理论与应用第8课 | 深度强化学习

本文是博雅大数据学院“深度学习理论与应用课程”第八章的内容整理。我们将部分课程视频、课件和讲授稿进行发布。在线学习完整内容请登录www.cookdata.cn

深度强化学习是一种将深度学习的感知能力和强化学习的决策能力相结合,去解决复杂系统感知决策问题的人工智能方法。本次课程将主要介绍强化学习的方法论和应用场景,其中会重点讲解(1)强化学习的数据基础,即马尔可夫决策过程(Markov Decision Process, MDP);(2)求解强化学习问题的一些方法,其中包括Q Learining以及与深度学习结合的方法Deep Q Network, Policy Gradient等。

  • 强化学习基础
  • 马尔可夫决策过程
  • Q Learning
  • Deep Q Network
  • Policy Gradient

1 强化学习基础

1.1 强化学习概述

介绍强化学习前,我们先简单回顾一下之前讲解的无监督学习和有监督学习。

无监督学习 的特点是从无标签数据的样本中学习数据集的内部结构,比如生成式模型便是通过学习概率分布来生成与观测样本类似的数据点。

与之相对的是有监督学习,其样本一般是标签数据,通过形如的点对,学习从到的映射函数,一个非常典型的例子就是图像分类问题。

8f9650b070a491bac928920b3c378586.png

强化学习(Reinforcement Learning, RL)和上述两种方法有很大的区别。强化学习其实就是一个智能体(agent)与外部环境(environment)互动的过程,上图概括了其主要概念和框架:为了达到特定目的,agent会采取一些动作(action),记为,这些动作会影响到外部环境的状态(state),记为;State由更新为后会反馈给Agent一个奖励(reward),记为,去评价当前动作的执行效果。

例如在自动驾驶的系统中,我们的最终目的是希望汽车能够平稳地驾驶。智能体需要根据观察到的当前路况,去对环境执行方向盘向左打或向右打的动作。如果在行驶过程中没有任何撞车,反馈的奖励便会更高。

97535d72a8aeff98d430adacde8c10d1.png

由上述框架可以看出,“如何采取action来最大化reward”是强化学习的核心问题。一般完成一个目标,agent需要执行一系列的动作,我们称这样的问题为序列决策(sequential decision making)。以机器人走路为例,机器人在当前位置,如何一步一步完成开门并走出屋子的任务,这便是一个序列决策。

9779eeccac1710020a9f3156b7837636.gif
Agility Robotics公司发布的双足机器人Cassie

因为涉及到了决策,强化学习往往会参与到多学科交叉的主题中(见下图),比如在数学和经济学的交叉领域中会涉及到许多经济政策与股票交易的决策问题,在工程学和神经科学里会应用到机器人控制与人脑研究等等。

ad854dc4877ba4319a59c9e22b8744bb.png

综上所述,强化学习的显著特点包括:

  • 没有监督者(supervisor),只有奖励信号
  • 反馈(feedback)有延迟,不是实时发生的
  • 数据集包含时间维度,即数据集为序列型数据
  • 智能体(Agent)的动作(Action)会对之后接收的数据产生影响
1.2 强化学习的基本概念

除了上文提及的智能体奖励环境 等元素外,强化学习还有一些其它基本概念:

16e651e64576114941ca7ac62361a33a.png经验 (Experience)可以理解成一个观察、动作、奖励不断重复的轨迹图,而状态 (state)是对这些经验的一个函数总结和特征提取。

状态可以进一步区分成智能体状态 ()与环境状态 ():

2d681f95167d81b7df74a85c9d27bb83.png78f62862151f97a7749bd59d12c3c25c.png

需要指出的是,环境状态对智能体通常不可见。例如一个机器人A推倒另一机器人B,机器人A是看不到机器人B内部的状态变化的。

下面我们介绍完全可观察(fully observability)和部分可观察(partially observability)的概念:

622293b9a6e5e6abf79e0db77e4bf594.png
b2e25520458ce13cf9526c66258b53e3.png

在完全可观察环境中,所有元素的状态都是共享信息的。这也是标准马尔可夫决策过程MDP的基本条件。

部分可观察环境的一个直观例子是安装有摄像头的机器人,由于遮挡带来的盲区,机器人观察不到环境状态的全部信息;另一个例子是在金融市场中,每个人都无法获知其他人的交易信息,而只能看到当前价格。这样的马尔可夫决策过程被称为Partially Observable MDP。

1.3 强化学习Agent的构成

一个强化学习智能体由以下部分组成:

  • 策略(Policy):智能体的行为函数(Behavior Function)
  • 值函数(Value Function):评价智能体的每个状态/动作
  • 模型(Model):智能体关于环境的表示(Representation)

策略 (Policy),简单说就是从状态到动作的一个映射,分为确定性(Deterministic)策略

和随机性(Stochastic)策略,即动作服从一个概率分布:

值函数 (Value Function),是对未来奖励的一种预测,即在状态下,预测智能体执行动作能获得多少奖励。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值