DQN 的神经网络部分可以看成一个 最新的神经网络
+ 老神经网络
, 他们有相同的结构, 但内部的参数更新却有时差. 而它的 Q现实
部分是这样的:
因为我们的神经网络预测 Qmax
本来就有误差, 每次也向着最大误差的 Q现实
改进神经网络, 就是因为这个 Qmax
导致了 overestimate. 所以 Double DQN 的想法就是引入另一个神经网络来打消一些最大误差的影响. 而 DQN 中本来就有两个神经网络, 我们何不利用一下这个地理优势呢. 所以, 我们用 Q估计
的神经网络估计 Q现实
中 Qmax(s', a')
的最大动作值. 然后用这个被 Q估计
估计出来的动作来选择 Q现实
中的 Q(s')
. 总结一下:
有两个神经网络: Q_eval
(Q估计中的), Q_next
(Q现实中的)
原本的 Q_next = max(Q_next(s', a_all))
.
Double DQN 中的 Q_next = Q_next(s', argmax(Q_eval(s', a_all)))
.
"""
Double DQN & Natural DQN comparison,
The Pendulum example.
View more on my tutorial page: https://morvanzhou.github.io/tutorials/
Using:
Tensorflow: 1.0
gym: 0.8.0
Observation&state theta角度 thetadot角速度
n Observation Min Max
0 cos(theta) -1.0 1.0
1 sin(theta) -1.0 1.0
2 thetadot -8.0 8.0
Actions
Jointeffort -2.0 2.0 电机的控制力拒
目标是保持零角度(垂直),旋转速度最小,力度最小
"""
import gym
from RL_brain import DoubleDQN
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
env = gym.make('Pendulum-v0')
env = env.unwrapped
env.seed(1)
MEMORY_SIZE = 3000
ACTION_SPACE = 11 # 将原本的连续动作分离成 11 个动作
sess = tf.Session()
with tf.variable_scope('Natural_DQN'):
natural_DQN = DoubleDQN(
n_actions=ACTION_SPACE, n_features=3, memory_size=MEMORY_SIZE,
e_greedy_increment=0.001, double_q=False, sess=sess
)
with tf.variable_scope('Double_DQN'):
double_DQN = DoubleDQN(
n_actions=ACTION_SPACE, n_features=3, memory_size=MEMORY_SIZE,
e_greedy_increment=0.001, double_q=True, sess=sess, output_graph=True)
sess.run(tf.global_variables_initializer())
def train(RL):
total_steps = 0
observation = env.reset()
while True:
if total_steps - MEMORY_SIZE > 8000: env.render()
action = RL.choose_action(observation)
f_action = (action-(ACTION_SPACE-1)/2)/((ACTION_SPACE-1)/4)
#在 [-2 ~ 2] 内离散化动作 convert to [-2 ~ 2] float actions
observation_, reward, done, info = env.step(np.array([f_action]))
reward /= 10
# normalize 到这个区间 (-1, 0). 立起来的时候 reward = 0.
# 立起来以后的 Q target 会变成 0, 因为 Q_target = r + gamma * Qmax(s', a') = 0 +
# gamma * 0
# 所以这个状态时的 Q 值大于 0 时, 就出现了 overestimate.
RL.store_transition(observation, action, reward, observation_)
if total_steps > MEMORY_SIZE: # learning
RL.learn()
if total_steps - MEMORY_SIZE > 20000: # stop game
break
observation = observation_
total_steps += 1
return RL.q # 返回所有动作 Q 值
q_natural = train(natural_DQN)
q_double = train(double_DQN)
plt.plot(np.array(q_natural), c='r', label='natural')
plt.plot(np.array(q_double), c='b', label='double')
plt.legend(loc='best')
plt.ylabel('Q eval')
plt.xlabel('training steps')
plt.grid()
plt.show()