文章脉络【Dueling DQN+Prioritized Memory ,2019年TVT】
1、贡献
1)首次将dueling network,target network,double DQN 和prioritized experience replay结合在一起。
2)提出了一种在整个周期内确定相位持续时间的控制系统,而不是将时间分段。
3)在SUMO上进行实验。
2、问题定义
1)状态
将路口分割成大小相同的小正方形,每个网格是车辆的状态值**<位置,速度>**。
位置是0或1【有车辆和没有车辆】 ,当该位置有车辆时对应显示其速度值[实数]。
2)动作
改变的是相位的持续时间,每次加5s。最大持续时间是60s,最小是0s。
例如下图,当前位于t1时刻,下一时刻有以下8种变化方案。
交通信号按照顺序循环变化,两个相邻相位之间需要一个黄灯来作为过渡,黄灯时间计算公式为:道路允许最大速度/车辆减速的加速度
3)奖励
将奖励定义为两个相邻周期之间的累计等待时间的变化
3、网络结构
A、CNN
由三个卷积层和几个全连接层构成,激活函数使用Leacky ReLU。
B、Dueling DQN
将Q网络分割成两部分:价值函数与优势函数。在实际使用中使用“当前选择动作的优势值减去平均值”,能够提高稳定性。
C、Target network
采用目标网络帮助指导更新过程,解耦目标值与实际值估计,通过冻结目标值的方式,使神经网络的更新更加稳定。
目标网络参数的更新采取下式:
加入目标网络后,整个神经网络的损失值表达式为:
D、Double DQN
为了缓解DQN算法过度估计问题,有学者提出采取当前Q网络的最大动作,而不是选择target网络中Q值最大的对应的动作。
因此,目标Q值的计算公式变为:
E、具有优先级的经验回放
DQN中最重要的一部分就是经验回放,通过经验回放可以调整抽取样本的分布,使其符合独立同分布,同时可以降低抽取的样本之间的相关性。
样本的优先级【采样概率】常采用两种方式计算:基于比例和基于等级。本文中采用的是基于等级方法,即将转移序列的时间差分误差项作为评价优先级的标准。
TD-error的计算公式如下:
转移序列i的采样概率:
对转移序列根据TD-error进行排序,优先级就是其排序的倒数。
F、优化
采用Adam方式???