强化学习—— Dueling Network

最新推荐文章于 2024-08-09 15:42:07 发布

CyrusMay

最新推荐文章于 2024-08-09 15:42:07 发布

阅读量1.8k

点赞数 2

分类专栏：强化学习文章标签： python 算法人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cyrus_May/article/details/124088614

版权

强化学习专栏收录该内容

16 篇文章 17 订阅

订阅专栏

强化学习—— Dueling Network

1、优势函数（Advantage Function）
- 1.1 概念定义
- 1.2 优势函数的性质
2. Dueling Network
- 2.1 近似网络
- 2.2 训练过程
3 网络保留优势函数最大值的原因：解决不唯一性

1、优势函数（Advantage Function）

1.1 概念定义

折扣回报： $U_t=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+...$
动作价值函数： $Q_\pi(s_t,a_t)=E[U_t|A_t=a_t,S_t=s_t]$
状态价值函数： $V_\pi(s_t)=E_A[Q_\pi(s_t,A)]$
最优动作价值函数： $Q^\star(s,a)=max_\pi(Q_\pi(s,a))$
最优状态价值函数： $V^\star(s)=max_\pi(V_\pi(s))$
最优优势函数（optimal advantage function）： $A^\star(s,a)=Q^\star(s,a)-V^\star(s)$

1.2 优势函数的性质

定理1： $V^\star(s)=max_a(Q^\star(s,a))\\max_aA^\star(s,a)=max_a(Q^\star(s,a))-V^\star(s)=0\\ max_a(A^\star(s,a))=0$
定理2： $A^\star(s,a)=Q^\star(s,a)-V^\star(s)-max_a(A^\star(s,a))$

2. Dueling Network

2.1 近似网络

通过神经网络近似最优动作价值函数： $Q(s,a;W)\sim Q^\star(s,a)$
通过神经网络近似最优状态价值函数： $V(s;W^V)\sim V^\star(s)$
通过神经网络近似优势函数： $A(s,a;W^A)\sim A^\star(s,a)$
Dueling Network为： $Q(s,a;W^A.W^V)=A(s,a;W^A)+V(s;W^V)-max_aA(s,a;W^A)\\后续使用W=(W^A,W^V)$
$Q(s,a;W)=A(s,a;W^A)+V(s;W^V)-max_aA(s,a;W^A)$

在这里插入图片描述
Dueling Network与DQN的功能、输入、输出完全一致，在网络结构上不同。

2.2 训练过程

$Q(s,a;W)近似Q^\star(s,a)$
参数训练方式与DQN完全一致： $W=(W^A,W^V)$
训练可使用的trick：
优先经验回放（prioritized experience replay）
Double DQN
Multi-step TD Target

3 网络保留优势函数最大值的原因：解决不唯一性

式（1）： $Q^\star(s,a)=V^\star(s)+A^\star(s,a)$
式（2）： $Q^\star(s,a)=V^\star(s)+A^\star(s,a)-max_aA^\star(s,a)$

式（1）有非唯一性，V、A神经网络上下波动对结果无影响，但会导致两个神经网络都学习不好。
式（2）保证了唯一性。
通常下式的训练效果更好，没有理论依据，但是简单粗暴：
$Q(s,a;W)=A(s,a;W^A)+V(S,W^V)-mean_a(A(s,a;W^A))$
本文内容为参考B站学习视频书写的笔记！

by CyrusMay 2022 04 11

我们在小孩和大人的转角
盖一座城堡
——————五月天（好好）——————

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。