强化学习的调试经验积累
在训练一个强化学习的模型时,特别是这个模型是基于PG算法的时候,我注意到,在构建网络模型时,我们初始化参数会极大的影响整个网络的收敛情况。对于一个policy gradient算法,其网络最后层一般是softmax函数,因此输出的policy是一个不同action下的对应概率分布。可以参考以下代码。
l1 = tf.layers.dense(
inputs=self.s,
units=20,
activation=tf.nn.relu,
kernel_initializer