DQN算法原理详解

 

一、 概述

强化学习算法可以分为三大类:value based, policy based 和 actor critic。

常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。

说到DQN中有值函数网络,这里简单介绍一下强化学习中的一个概念,叫值函数近似。一个state action pair (s,a)对应一个值函数Q(s,a)。理论上对于任意的(s,a)我们都可以由公式求出它的值函数,即用一个查询表lookup table来表示值函数。但是当state或action的个数过多时,分别去求每一个值函数会很慢。因此我们用函数近似的方式去估计值函数:^Q(s,a,w)Qπ(s,a)

这样,对于未出现的state action也可以估计值函数。
至于近似函数,DQN中用的是神经网络,当然如果环境比较简单的话用线性函数来近似也是可以的。

DQN算法原文链接: 2013版(arxiv) 2015版(nature)

二、算法原理

强化学习是一个反复迭代的过程,每一次迭代要解决两个问题:给定一个策略求值函数,和根据值函数来更新策略。

DQN使用神经网络来近似值函数,即神经网络的输入是state s,输出是Q(s,a),aA (action space)。通过神经网络计算出值函数后,DQN使用ϵgreedy策略来输出action(第四部分中介绍)。值函数网络与ϵgreedy策略之间的联系是这样的:首先环境会给出一个obs,智能体根据值函数网络得到关于这个obs的所有Q(s,a),然后利用ϵgreedy选择action并做出决策,环境接收到此action后会给出一个奖励Rew及下一个obs。这是一个step。此时我们根据Rew去更新值函数网络的参数。接着进入下一个step。如此循环下去,直到我们训练出了一个好的值函数网络。

DQN-network

那么每次迭代如何更新神经网络的参数呢?

与机器学习类似,首先会定义一个loss function,然后使用梯度下降GD来更新参数。接下来首先介绍DQN的loss function,它与Q-Learning的非常类似,只是添加了一个target Q function。然后会介绍除此之外,DQN在Q-Learning上所做的改进。

1、Loss Function

L(ω)=E[(R+γmaxaQ(s,a;ω)Q(s,a;ω))2]这个公式表面上看起来很复杂,实际上很好理解,它就是一个残差模型,和我们平常见的最小二乘法很类似,真实值与预测值之间的差的平方。预测值就是Q(s,a;ω),它是神经网络的输出。“真实值”略微有一点复杂。

想象一下假如我们想求出(s,a)的真实值函数Q(s,a)。它表示我从state s开始出发,并采取action a的话,我所能得到的整体收益的期望值。一种可能的情况是,我们知道环境的模型。这在强化学习中也叫Model Based RL。即我们知道状态转移概率矩阵:当处于(s,a)时,下一个到达的状态可能是什么,并且到达每一个状态的概率是什么;我们还知道奖励函数:当处于(s,a)时,得到的立即回报的期望值是什么;另外还知道折扣因子。由此,我们便可以通过贝尔曼方程来求解值函数。这种情况下我们可能也并不需要神经网络近似值函数之类的,直接由策略迭代或值迭代便可以求出最优策略。具体方法可以看一下MDP。

另一种情况就是Model Free RL:不管有没有环境模型,反正我不用。那么在不知道环境模型的情况下如何求解值函数呢?答案就是采样

 

强化学习中有多种采样的方法:

(1) Monte Carlo
  • MC使用一个完整的episode去更新值函数,因此它需要从StSt到Terminal state的完整样本。
  • 而且需要等到episode结束才能更新值函数。
  • 由于有一条完整的样本,它可以计算出return,而值函数是return的期望,所以我们可以用return去更新值函数。
(2) Temporal Difference / SarSa

 

  • 与MC不一样的是,TD不需要完整的样本,它只依赖下一个step的值函数,即它用V(St+1) 去更新 V(St)V(St)(TD), 或用 Q(St+1,at+1) 去更新 Q(St,at) (SarSa)
  • 它不用等到episode结束,每走一步就可以更新值函数。
  • 它不是用的真实的return值来更新值函数,而是用的一个估计值去更新另一个估计值的思想。

另外还有TD(λ或 SarSa(λ))方法,DQN中不涉及。

 

DQN属于Model Free的强化学习算法,它需要采样。且同SarSa类似,只依赖下一个step的值函数。但它更新值函数的方式与SarSa又有所不同。下面介绍从SarSa到Q-Learning再到DQN的更新值函数的方式。

(1) SarSa

 

SarSa中更新值函数的公式为:Q(s,a)Q(s,a)+α[R+γQ(s,a)Q(s,a)]也称它的target是 Rt+1+γQ(St+1,at+1)。理解这个target代表的意义:

转载于:https://www.cnblogs.com/shona/p/10908618.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值