机器学习之强化学习

强化学习

强化学习是机器学习的一个重要分支,它与非监督学习、监督学习并列为机器学习的三类主要学习方法。

强化学习强调如何基于环境行动,以取得最大化的预期利益,所以强化学习可以被理解为决策问题。它是多学科多领域交叉的产物,其灵感来自于心理学的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

强化学习的应用范围非常广泛,各领域对它的研究重点各有不同。

强化学习的应用

强化学习(reinforcement learning)应用:机器人、对话系统,甚至开发视频游戏的人工智能(AI)。

深度强化学习(deep reinforcement learning)将深度学习应用于强化学习的问题,是非常热门的研究领域。

强化学习的例子: 突破性的深度Q网络(Q-network)在雅达利游戏中仅使用视觉输入就击败了人类;  以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军。

强化学习的四个因素

强化学习的四个因素是:智能体、环境、行动、反馈

智能体是执行任务的客体,只能通过与环境互动来提升策略。

在每一个环境状态中,智能体可以采取的动作即为行动。

在每一个时间节点,智能体所处的环境的表示即为环境状态。

每到一个环境状态,智能体就有可能会收到一个反馈。

智能体在一系列的时间步骤上与环境交互。 在每个特定时间点,智能体从环境接收一些反馈(观测),并且必须选择一个行动(动作),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励。 此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。

 强化学习算法的目标

 强化学习算法的目标就是获得最多的累计奖励(正反馈)。

以“幼童学习走路”为例:幼童需要自主学习走路,没有人指导他应该如何完成“走路”,他需要通过不断的尝试和外界对他的反馈来学习走路。

强化学习的特征

1.没有明确的标签   2.延迟回报  3.动态环境

没有明确的标签:强化学习没有明确的标签来告诉智能体什么是正确的动作。必须通过与环境的交互来学习。

延迟回报:奖励信号可能在未来的时间点才会到达,因此代理需要考虑长期回报而不只是当前的奖励。

动态环境:环境可能是动态变化的,智能体必须能够适应环境的变化并调整策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值