强化学习
强化学习是机器学习的一个重要分支,它与非监督学习、监督学习并列为机器学习的三类主要学习方法。
强化学习强调如何基于环境行动,以取得最大化的预期利益,所以强化学习可以被理解为决策问题。它是多学科多领域交叉的产物,其灵感来自于心理学的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
强化学习的应用范围非常广泛,各领域对它的研究重点各有不同。
强化学习的应用
强化学习(reinforcement learning)应用:机器人、对话系统,甚至开发视频游戏的人工智能(AI)。
深度强化学习(deep reinforcement learning)将深度学习应用于强化学习的问题,是非常热门的研究领域。
强化学习的例子: 突破性的深度Q网络(Q-network)在雅达利游戏中仅使用视觉输入就击败了人类; 以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军。
强化学习的四个因素:
强化学习的四个因素是:智能体、环境、行动、反馈
智能体是执行任务的客体,只能通过与环境互动来提升策略。
在每一个环境状态中,智能体可以采取的动作即为行动。
在每一个时间节点,智能体所处的环境的表示即为环境状态。
每到一个环境状态,智能体就有可能会收到一个反馈。
智能体在一系列的时间步骤上与环境交互。 在每个特定时间点,智能体从环境接收一些反馈(观测),并且必须选择一个行动(动作),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励。 此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。
强化学习算法的目标
强化学习算法的目标就是获得最多的累计奖励(正反馈)。
以“幼童学习走路”为例:幼童需要自主学习走路,没有人指导他应该如何完成“走路”,他需要通过不断的尝试和外界对他的反馈来学习走路。
强化学习的特征
1.没有明确的标签 2.延迟回报 3.动态环境
没有明确的标签:强化学习没有明确的标签来告诉智能体什么是正确的动作。必须通过与环境的交互来学习。
延迟回报:奖励信号可能在未来的时间点才会到达,因此代理需要考虑长期回报而不只是当前的奖励。
动态环境:环境可能是动态变化的,智能体必须能够适应环境的变化并调整策略。