最优优势函数 最优优势函数是由最优动作价值函数和最优状态函数结合而成。 Dueling Network Dueling Network属于DQN的改进,作用是相同的,但是效果更好。Dueling Network需要两个网络组成:优势网络、状态价值网络。都是由卷积层(参数共享)提取特征,全连接层映射结果。DQN上可以使用的改进方法,也全部适用于Dueling Network。 唯一性问题 最优状态价值V网络和优势网络A都上下浮动,会有不惟一的情况,会让训练效果变差。