【DQN高级技巧3】Dueling Network

最新推荐文章于 2024-04-20 09:40:49 发布

Echoooooh

最新推荐文章于 2024-04-20 09:40:49 发布

阅读量387

点赞数

分类专栏：深度强化学习文章标签：深度强化学习 TD算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44319285/article/details/127357739

版权

深度强化学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

回顾

折扣回报
动作价值函数
状态价值函数
在这里插入图片描述
最优动作价值函数
最优状态价值函数

优势函数

定义
在这里插入图片描述
表示动作a相对于baseline $V^*$ 的优势，动作越好，优势越大
性质

在定义式两边关于a做最大化，式子依然成立，又带入性质1得到 $maxA^*(s,a)=0$

在这里插入图片描述
再由定义式出发，移项得

带入刚刚推导的 $maxA^*(s,a)=0$ ，得到性质2

Dueling Network

回顾DQN

在这里插入图片描述
DQN用神经网络对 $Q^*$ 做近似，这里我们不对 $Q^*$ 做近似，我们对 $A^*$ 做近似，网络结构不变

再用一个网络近似 $V^*$ ,其输出式一个实数，可以和 $A^*$ 的网络共享卷积层。

此时搭建Dueling Network
它跟DQN作用相同，表示相同，都是最优动作价值函数的近似
在这里插入图片描述
训练过程也和DQN完全一样，都是TD算法。

为什么要加 $ma x A$ 这一项

为了解决不唯一性的问题
在这里插入图片描述
等式1存在不唯一性的问题：若两个网络都有波动，但波动恰好抵消，则输出无影响。

但添加最大化项可以解决这个问题
将最大化项换为平均项，效果会更好（经验结论）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【DQN高级技巧3】Dueling Network

Dueling Network
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。