深度强化学习综述(上)

本文概述了强化学习的基本原理,包括马尔可夫决策过程、策略与价值函数,并介绍了时序差分算法如Q学习。深度强化学习(DRL)将深度学习引入强化学习,解决了传统强化学习在高维输入中的困境。DQN作为DRL的代表,通过深度神经网络逼近Q函数,实现了端到端的学习,已在Atari游戏上展示出超越人类的表现。DQN及其后续改进如Double DQN和优先级经验回放等,提高了算法的稳定性和效率。
摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作。对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手;对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶到目的地;对于机械手,要驱动手臂运动以抓取到设定的目标物体。这类问题有一个共同的特点:要根据当前的条件作出决策和动作,以达到某一预期目标。解决这类问题的机器学习算法称为强化学习(reinforcement learning,RL)。虽然传统的强化学习理论在过去几十年中得到了不断的完善,但还是难以解决现实世界中的复杂问题。

深度强化学习(DRL,deep reinforcement learning)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文。在这篇文章中,SIGAI将对深度强化学习的算法与应用进行总结。整个综述分为上下两篇,本篇介绍强化学习的基本原理,深度强化学习的基本思想,以及基于价值函数的深度强化学习算法。下篇介绍基于策略的深度强化学习算法,基于搜索与监督的深度强化学习算法,以及深度强化学习算法的应用情况与未来的方向。

什么是强化学习

强化学习[1]是一类特殊的机器学习算法,借鉴于行为主义心理学。与有监督学习和无监督学习的目标不同,算法要解决的问题是智能体(agent,即运行强化学习算法的实体)在环境中怎样执行动作以获得最大的累计奖励。例如,对于自动行驶的汽车,强化学习算法控制汽车的动作,保证安全行驶到目的地。对于围棋算法,算法要根据当前的棋局来决定如何走子,以赢得这局棋。对于第一个问题,环境是车辆当前行驶状态(如速度)、路况这样的参数构成的系统的抽象,奖励是我们期望得到的结果,即汽车正确的在路面上行驶,到达目的地而不发生事故。

很多控制、决策问题都可以抽象成这种模型。和有监督学习类似,强化学习也有训练过程,需要不断的执行动作,观察执行动作后的效果,积累经验形成一个模型。与有监督学习不同的是,这里每个动作一般没有直接标定的标签值作为监督信号,系统只给算法执行的动作一个反馈,这种反馈一般具有延迟性,当前的动作所产生的后果在未来才会完全体现,另外未来还具有随机性,例如下一个时刻路面上有哪些行人、车辆在运动,算法下一个棋子之后对手会怎么下,都是随机的而不是确定的。当前下的棋产生的效果,在一局棋结束时才能体现出来。

强化学习应用广泛,被认为是通向强人工智能/通用人工智能的核心技术之一。所有需要做决策和控制的地方,都有它的身影。典型的包括游戏与博弈,如打星际争霸、Atari游戏:

算法需要根据当前的游戏画面和状态决定其要执行的动作,如按游戏的键盘、手柄,鼠标。

 

围棋,象棋等棋类游戏:

算法需要根据当前的棋局决定当前该怎么走子。

 

自动驾驶系统/无人车:

算法需要根据当前的路况,无人车自身的状态(如速度、加速度)决定其行驶的行为,如控制方向盘,油门,刹车等。

 

机器人控制:

机器人要根据当前所处的环境,自身的状态,决定其要执行的动作。

所有这些问题总计起来都有一个特点,即智能体需要观察环境和自身的状态,然后决定要执行的动作,以达到想要的目标:

智能体是强化学习的动作实体。对于自动驾驶的汽车,环境是当前的路况;对于围棋,状态是当前的棋局。在每个时刻,智能体和环境有自己的状态,如汽车当前位置和速度,路面上的车辆和行人情况。智能体根据当前状态确定一个动作,并执行该动作。之后它和环境进入下一个状态,同时系统给它一个反馈值,对动作进行奖励或惩罚,以迫使智能体执行期望的动作。

强化学习是解决这种决策问题的一类方法。算法要通过样本学习得到一个映射函数,称为策略函数,其输入是当前时刻环境信息,输出是要执行的动作:

其中s为状态,a为要执行的动作,状态和动作分别来自状态集合和动作集合。动作和状态可以是离散的,如左转30度、右转30度,也可以是连续的实数,如左转30度、右转30度。对于前者,动作和状态集合是有限集,对于后者,是无限集。执行动作的目标是要达到某种目的,如无人汽车安全的行驶,赢得本次围棋比赛,用回报函数对此进行建模。

马尔可夫决策过程

强化学习要解决的问题可以抽象成马尔可夫决策过程(Markov Decision Process,简称MDP)。马尔可夫过程的特点是系统下一个时刻的状态由当前时刻的状态决定,与更早的时刻无关。与马尔可夫过程不同的是,在MDP中系智能体可以执行动作,从而改变自己和环境的状态,并且得到惩罚或奖励。马尔可夫决策过程可以表示成一个五元组:

  • 8
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值