强化学习简介及马尔科夫决策过程

本文介绍了强化学习的基本概念,强调它是一种无标签的学习方式,通过奖励信号指导智能体学习最佳策略。讨论了强化学习的建模,包括环境状态、动作、奖励和策略等要素,并详细解释了马尔科夫决策过程(MDP)和其简化假设。还涵盖了动作价值函数、贝尔曼方程以及强化学习的优缺点。
摘要由CSDN通过智能技术生成

强化学习分享

陈迪 用户策略部 2019年11月12日

1. 什么是强化学习

  强化学习(reinforcement learning, RL)是近年来大家提的非常多的一个概念,那么,什么叫强化学习?

  强化学习是机器学习的一个分支,和监督学习,非监督学习并列。

  参考文献[1]中给出了定义:

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

  即强化学习是通过学习将环境状态转化为动作的策略,从而获得一个最大的回报。

  举个栗子[2],在flappy bird游戏中,我们想设计一个获得高分的策略,但是却不清楚他的动力学模型等等。这是我们可以通过强化学习,让智能体自己进行游戏,如果撞到柱子,则给负回报,否则给0回报。(也可以给不撞柱子持续给1点回报,撞柱子不给回报)。通过不断的反馈,我们可以获得一只飞行技术高超的小鸟。

  通过上面例子,我们可以看到强化学习的几个特性[3]:

  1. 没有label,只有奖励(reward)
  2. 奖励信号不一定是实时的,很有可能延后的。
  3. 当前的行为影响后续接收到的数据
  4. 时间(序列)是一个重要因素

2. 强化学习的建模

img

  上面的大脑代表我们的智能体,智能体通过选择合适的动作(Action)$At$,地球代表我们要研究的环境,它拥有自己的状态模型,智能体选择了合适的动作$At$,环境的状态$St$发生改变,变为$S{t 1}$,同时获得我们采取动作$At$的延迟奖励$Rt$,然后选择下一个合适的动作,环境状态继续改变……这就是强化学习的思路。

  在这个强化学习的思路中,整理出如下要素[4]:

  (1)环境的状态$S$,$t$时刻环境的状态$S_t$是它的环境状态集中的某一个状态;

  (2)智能体的动作$A$,$t$时刻智能体采取的动作$A_t$是它的动作集中的某一个动作;</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值