Dueling DQN想法

最新推荐文章于 2022-07-24 00:52:05 发布

石磅溪涧

最新推荐文章于 2022-07-24 00:52:05 发布

阅读量198

点赞数 1

文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34988557/article/details/113339396

版权

Dueling DQN

解决问题:

Q(s,a)表示了状态s下动作a的价值。因为有状态s这个条件，Q (s,a)并不能完全代表状态a的价值，因为有时候在某种state，无论做什么动作，对下一个state都没有多大的影响，而在一个好的state，无论做什么action，都能得到很高的value；在一个很差的state，无论做什么action，都只会得到一个很低的value。

因此提出了Dueling DQN结构，愿望是衡量状态s的价值V (s)和动作a的价值A(s,a)。再讲状态的价值V (s)和动作的价值A (s,a)相加得到状态s下动作a的价值Q (s,a)。

改进思想:

将Q(s,a)分离为V(s)和A(s,a)是为了尽可能分离出状态的价值和固定状态下，每个动作的价值。

改进过程:

第一部分：和普通DQN一样，用来处理和学习数据。

第二部分：计算svalue，就是让网络预估的平均值。

第三部分：计算avalue，和svalue一样，我们都是从h2层输入到该层。然后我们对avalue进行归一化处理，也就是增加“A值的平均值为0”的限制。

归一化的处理很简单，我们求A值的平均值，然后用A值减去平均值即可

训练截图:

游戏截图:

EVAL：

Print的Q，V, As值。

跑一个epoch的时间截图:

大概3分钟左右。

计算分析:

算出来了11*11*64=7744，结果正确。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Dueling DQN想法

Dueling DQN解决问题:Q(s,a)表示了状态s下动作a的价值。因为有状态s这个条件，Q (s,a)并不能完全代表状态a的价值，因为有时候在某种state，无论做什么动作，对下一个state都没有多大的影响，而在一个好的state，无论做什么action，都能得到很高的value；在一个很差的state，无论做什么action，都只会得到一个很低的value。因此提出了Dueling DQN结构，愿望是衡量状态s的价值V (s)和动作a的价值A(s,a)。再讲状态的价值V (s)和动作的价
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。