Dueling DQN
- 解决问题:
Q(s,a)表示了状态s下动作a的价值。因为有状态s这个条件,Q (s,a)并不能完全代表状态a的价值,因为有时候在某种state,无论做什么动作,对下一个state都没有多大的影响,而在一个好的state,无论做什么action,都能得到很高的value;在一个很差的state,无论做什么action,都只会得到一个很低的value。
因此提出了Dueling DQN结构,愿望是衡量状态s的价值V (s)和动作a的价值A(s,a)。再讲状态的价值V (s)和动作的价值A (s,a)相加得到状态s下动作a的价值Q (s,a)。
- 改进思想:
将Q(s,a)分离为V(s)和A(s,a)是为了尽可能分离出状态的价值和固定状态下,每个动作的价值。
- 改进过程:
第一部分:和普通DQN一样,用来处理和学习数据。
第二部分:计算svalue,就是让网络预估的平均值。
第三部分:计算avalue,和svalue一样,我们都是从h2层输入到该层。然后我们对avalue进行归一化处理,也就是增加“A值的平均值为0”的限制。
归一化的处理很简单,我们求A值的平均值,然后用A值减去平均值即可
训练截图:
游戏截图:
EVAL:
Print的Q,V, As值。
跑一个epoch的时间截图:
大概3分钟左右。
计算分析:
算出来了11*11*64=7744,结果正确。