强化学习（二）——Dueling Network（DQN改进）

最新推荐文章于 2025-04-11 21:33:19 发布

晚点吧

最新推荐文章于 2025-04-11 21:33:19 发布

阅读量1k

点赞数 19

分类专栏：强化学习文章标签：强化学习 RF Dueling Network DQN 优势函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42529756/article/details/134906084

版权

强化学习专栏收录该内容

5 篇文章

订阅专栏

与DNQ相比，使用优势函数(A函数)和状态价值函数（V）代替之前的Q(动作价值)函数，
最核心公式为 $Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a)$ 。

核心公式演变：
基本公式 $A^*(s,a)=Q^*(s,a)-V^*(s)$
变化公式1 $Q^*(s,a)=A^*(s,a)+V^*(s)$
变化公式2 $Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a)$

1 基本概念

动作价值函数： $Q_\pi (s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$
状态价值函数： $V_\pi (s_t)=E_A[Q_\pi(s_t,A)]$
最优动作价值函数： $Q^*(s_t,a_t)=max_\pi Q_\pi(s_t,a_t)$
最优状态价值函数： $V^*(s)=\max_\pi V_\pi (s)=\max_aQ^*(s_t,a)$
最优优势函数； $A^*(s,a)=Q^*(s,a)-V^*(s)$

2 公式定义及推导

2.1 公式定义

$V^*(s)=\max_aQ^*(s_t,a)$ 。（公式1）
$A^*(s,a)=Q^*(s,a)-V^*(s)$ （公式2）
$Q^*(s,a)=A^*(s,a)+V^*(s)$ （公式3）

2.2 公式推导 $max_a A^*(s,a=0$

$max_a A^*(s,a)=max_aQ^*(s,a)-max_aV^*(s)\\ =max_aQ^*(s,a)-V^*(s)\\ =max_aQ^*(s,a)-max_aQ^*(s,a)\\ =0$
可得 $max_a A^*(s,a)=0$

2.3 核心公式3优化

公式3 右边减掉为0的 $max_a A^*(s,a)$ 等式依然成立
$Q^*(s,a)=A^*(s,a)+V^*(s)$
$Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a)$

2.2 使用神经网络代替A和V函数

$Q^*(s,a,w^A,w^V)=A^*(s,a,w^A)+V^*(s,w^V)-\max_a A^*(s,a,w^A)$

3 公式为什么要加 $max_a A^*(s,a,w^A)$ ？

主要是为了克服神经网络一致性问题，防止网络波动， $max_a A^*(s,a,w^A)$ 起到了约束作用。
比如；
1 没有约束项，A网络增加10，V网络减少10，Q值不变
2 增加约束项，A网络增加10，V网络减少10，则Q值增大10，因为对A网络取最大值时增加了10。同理A网络减少10，V网络增加10，则Q网络减少了10.

解释：约束V网络向A网络最大负值靠近，约束V网络和A网络。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。