动手学强化学习笔记-Dueling DQN
当取最优动作a*时,A(s,a*)=maxA(s,a'),从而maxQ(s,a)=V(s),此时最优的Q有唯一的V,确保了V值建模的唯一性。对于该式子的证明,我们可以对优势函数A*(s,a)=Q*(s,a)-V*(s),两边同时取最优动作a*,则有maxA*(s,a*)=maxQ*(s,a*)-V*(s),又根据最优策略与Q值的关系(贝尔曼最优方程),有V*(s)=maxQ*(s,a),可以得到maxA*(s,a)=0。那么就可以得到Q*(s,a)=V*(s)+A*(s,a)-maxA*(s,a)。