Dueling DQN想法

Dueling DQN

  1. 解决问题:

Q(s,a)表示了状态s下动作a的价值。因为有状态s这个条件,Q (s,a)并不能完全代表状态a的价值,因为有时候在某种state,无论做什么动作,对下一个state都没有多大的影响,而在一个好的state,无论做什么action,都能得到很高的value;在一个很差的state,无论做什么action,都只会得到一个很低的value

因此提出了Dueling DQN结构,愿望是衡量状态s的价值V (s)和动作a的价值A(s,a)。再讲状态的价值V (s)和动作的价值A (s,a)相加得到状态s下动作a的价值Q (s,a)

  1. 改进思想:

Q(s,a)分离为V(s)A(s,a)是为了尽可能分离出状态的价值和固定状态下,每个动作的价值。

  1. 改进过程:

第一部分:和普通DQN一样,用来处理和学习数据。

第二部分:计算svalue,就是让网络预估的平均值。

第三部分:计算avalue,和svalue一样,我们都是从h2层输入到该层。然后我们对avalue进行归一化处理,也就是增加“A值的平均值为0”的限制。

归一化的处理很简单,我们求A值的平均值,然后用A值减去平均值即可

 

训练截图:

 

 

游戏截图:

 

EVAL:

Print的Q,V,  As值。

 

跑一个epoch的时间截图:

大概3分钟左右。

计算分析:

算出来了11*11*64=7744,结果正确。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值