【机器学习11】强化学习

本文介绍了强化学习的基本概念,包括马尔可夫决策过程和常用的算法(如Q-Learning、策略梯度),重点阐述了价值迭代、策略迭代的过程,以及DeepQ-learning的应用。策略梯度部分强调了其在连续和离散状态空间的优势,以及优化策略的梯度方法。
摘要由CSDN通过智能技术生成

1 基本概念

一个机器人在环境中会做各种动作, 环境会接收动作, 并引起自身状态的变迁, 同时给机器人以奖励。 机器人的目标就是使用一些策略, 做合适的动作, 最大化自身的收益。
在这里插入图片描述
整个场景一般可以描述为一个马尔可夫决策过程:
动作: 所有可能做出的动作的集合, 记作A(可能是无限的) 。
状态: 所有状态的集合, 记作S。
奖励: 机器人可能收到的奖励, 一般是一个实数, 记作r。
时间(t=1,2,3…) : 在每个时间点t, 机器人会发出一个动作at, 收到环境给出的收益rt, 同时环境进入到一个新的状态st。
状态转移: S×A→S满足在这里插入图片描述从当前状态到下一状态的转移, 只与当前状态以及当前所采取的动作有关。

累积收益: 从当前时刻0开始累积收益的计算方法是:在这里插入图片描述
强化学习的核心任务是, 学习一个从状态空间S到动作空间A的映射, 最大化累积受益。 常用的强化学习算法有Q-Learning、 策略梯度, 以及演员评判家算法(Actor-Critic) 等。

2 价值迭代和策略迭代

价值迭代:

在这里插入图片描述
上面的迭代过程实际上运用了贝尔曼方程(Bellman Equation) , 来对每个位置的价值进行更新:
在这里插入图片描述

价值V(s)由两部分组成:

在这里插入图片描述

策略迭代:

策略就是根据当前状态决定该采取什么动作。
如何衡量策略的好坏? 这就需要介绍策略评估(Policy Evaluation) 。 给定一个策略π, 我们可以计算出每个状态的期望价值 V(s)。 策略迭代可以帮助我们找到更好的策略, 即期望价值更高的策略, 具体步骤如下:

在这里插入图片描述

3 Q-learning和与Deep Q-learning

Qlearning的本质是, 当前状态sj、 回馈aj、 奖励rj, 以及Q函数之间存在关系:
在这里插入图片描述
依据平方差距, 可以对Q函数的取值做迭代改进。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4 策略梯度

包括深度Q-learning在内的大多数强化学习算法, 都没有收敛性的保证, 而策略梯度(Policy Gradient) 则没有这些问题, 它可以无差别地处理连续和离散状态空间,同时保证至少收敛到一个局部最优解。
策略梯度的基本思想就是, 直接用梯度方法来优化R(θ)。 和Q-learning不同的是, 策略梯度并不估算Q函数本身, 而是利用当前状态直接生成动作at。
设τ为某一次0到T时间所有状态及行动的集合(称作一条轨迹) , 则R(θ)=E(r(τ)), 其中函数r计算了轨迹τ的得分。

在这里插入图片描述
一个简单的算法描述如图:

在这里插入图片描述

∇θR(θ)实际上是一个随机变量g(τ)的期望。 我们对g(τ)进行若干次独立采样, 可以获得对其期望的一个估计。

如果能在不改变期望的前提下减少g(τ)的方差, 则能有效提高对其期望估计的效率。 由于所有可能的状态和动作序列构成了整个轨迹空间,概率密度在整个轨迹空间中的总和必须等于 1。这是因为所有可能事件的总概率应该等于 1。即
在这里插入图片描述

对g(τ)求期望可得:

在这里插入图片描述

对于任一个常量b, 我们定义一个强化梯度:

在这里插入图片描述

因为b是常数,增加前后期望值都不变,但是改变后的方差更小。

在这里插入图片描述

经过计算可以得到最优的b为:

在这里插入图片描述

因此改良后的策略梯度为:
在这里插入图片描述

  • 7
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小镇躺不平家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值