强化学习—— Target Network & Double DQN（解决高估问题，overestimate）

最新推荐文章于 2024-08-10 11:01:38 发布

CyrusMay

最新推荐文章于 2024-08-10 11:01:38 发布

阅读量2.5k

点赞数 5

分类专栏：强化学习文章标签： python 强化学习人工智能算法 overestimate

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cyrus_May/article/details/124076605

版权

强化学习专栏收录该内容

16 篇文章

订阅专栏

本文探讨了强化学习中DQN算法的高估问题，包括最大化导致的动作价值高估和Bootstrapping引发的正反馈循环。介绍了Target Network作为解决方案，通过分离目标网络来减少高估，以及Double DQN如何避免最大化过程中的高估。这两种方法都是为了提高DQN的学习效果和稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习—— Target Network & Double DQN（解决高估问题，overestimate）

1TD算法
2. 高估问题
3. 高估的解决方案
4. 总结

1TD算法

TD Target： $y_t = r_t +\mathop{max}\limits_{a}Q(s_{t+1},a;W)$
SGD: $W\gets W-\alpha \cdot (Q(s_t,a_t;W)-y_t)\cdot \frac{\partial Q(s_t,a_t;W)}{\partial W}$
TD Target中的部分基于Q，并用于更新Q自身。

2. 高估问题

使用TD 算法进行学习使得DQN出现高估问题（overestiamte），两个主要原因为：

TD Target比真实的动作价值更大（Maximization）。
Bootstrapping

2.1 Maximization

2.1.1 数学解释

观测到实数： $x_1,x_2,...,x_n$
对实数x增加均值为0的噪音，得到： $Q_1,Q_2,...,Q_n$
均值为0的噪音并不影响增加前后的均值： $E[mean_i(Q_i)]=E[mean_i(x_i)]$
添加均值为0的噪音会增加添加后的最大值： $E[max_i(Q_i)]≥E[max_i(x_i)]$
添加均值为0的噪音会减小添加后的最小值： $E[min_i(Q_i)]≤E[min_i(x_i)]$

2.1.2 动作价值函数的高估

真实的动作价值为 $x(a_1),x(a_2),...,x(a_n)$
通过DQN得到有噪音的动作价值估计： $Q(s_1,a_1;W),Q(s_2,a_2;W),...,Q(s_n,a_n;W)$
假设为无偏估计： $\mathop{mean}\limits_{a}x(a)=\mathop{mean}\limits_{a}Q(s,a;W)$
则会产生如下高估： $q=\mathop{max}\limits_{a}Q(s,a;W)≥\mathop{max}\limits_{a}x(a)$
t+1时刻真实动作价值函数的高估为： $q=\mathop{max}\limits_{a}Q(s_{t+1},a;W)$
则TD Target为高估： $y_t=\gamma \cdot q_{t+1}$
更新后的Q朝向TD Target，仍为高估。

2.2 Bootstrapping

自举：using an estimated value in the update step for the same kind of estimated value

假设DQN已经高估了动作价值
则t+1时刻的动作价值已经为高估： $Q(s_{t+1},a;W)$
则t+1时刻的最优动作价值为进一步的高估： $q_{t+1}=\mathop{max}\limits_{a}Q(s_{t+1},a,W)$
当t+1时刻的最优动作价值在用于更新Q网络时，则DQN的高估被进一步加剧。

2.3 高估是否有害

均匀高估没有影响。因为关注相对大小，不关注绝对大小
非均匀高估则会产生影响。
DQN为非均匀高估：

使用一个transition去更新W： $s_t,a_t,r_t,s_{t+1})$
TD Target计算时： $y_t高估了Q^\star(s_t,a_t)$
梯度更新使得： $Q(s_t,a_t;W)朝向y_t$
因此： $Q(s_t,a_t;W)高估了Q^\star(s_t,a_t)$
而（s，a）在replay buffer中的频率不一样，（s，a）的频率越高，则： $Q(s,a;W)会更多的高估Q^\star(s,a)$

3. 高估的解决方案

3.1 Target Network

使用一个target 网络去计算TD targets，可以解决bootstrapping引起的高估问题。

3.1.1 Target Network的结构

$Q(s,a,W^-)$
网络结构与DQN一致，但参数不一样：
$W\neq W^-$

3.1.2 学习方式

使用 DQN控制agent和收集经验： $Q(s,a;W) for {(s_t,a_t,r_t,s_{t+1})}$
使用Target Network计算TD Target： $y_t = r_t+\gamma \cdot \mathop{max}\limits_{a}Q(s_{t+1},a,W^-)$
TD error 为： $\delta_t = Q(s_{t},a,W)-y_t$
SGD 更新网络参数： $W\gets W-\alpha \cdot (Q(s_t,a_t;W)-y_t)\cdot \frac{\partial Q(s_t,a_t;W)}{\partial W}$
Target Network的参数需要定期更新（periodically update）

方法一： $W\gets W^-$
方法二： $W\gets \eta \cdot W + (1-\eta) \cdot W^-$
仍然无法避免高估

3.2 Double DQN

解决最大化造成的高估。

选择最优动作时使用DQN： $a^\star=\mathop{argmax}\limits_{a}Q(s_{t+1},a;W)$
评估动作价值时使用 Target Network： $y_t = r_t + \gamma \cdot Q(s_{t+1},a^\star;W^-)$
Double DQN更好的原因： $Q(s_{t+1},a^\star;W^-)≤\mathop{max}\limits_{a}Q(s_{t+1},a;W^-)$

4. 总结

最大化导致真实的动作价值被高估
bootstrapping造成正反馈循环，导致高估
Target Network能部分避免bootstrapping： $W^-依赖于W$
Double DQN避免最大化造成的高估

网络学习方式	动作选择	价值评估
原始方式	DQN	DQN
Target Network	Target Network	Target Network
Double DQN	DQN	Target Network

本文内容为参考B站学习视频书写的笔记！

by CyrusMay 2022 04 10

我们在小孩和大人的转角
盖一座城堡
——————五月天（好好）——————

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。