Dueling netrwork -可以再DQN及其他地方
本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0
Advantage function (优势函数)
- A ∗ ( s , a ) = Q ∗ ( s , a ) − V ∗ ( s ) A^{*}(s, a) = Q^{*}(s, a) - V^{*}(s) A∗(s,a)=Q∗(s,a)−V∗(s)
- 注意,这里 V ∗ ( s t ) = max π V π ( s t ) = max π E A [ Q π ( s t , A ) ] V^{*}(s_t) = \max_{\pi} V_{\pi}(s_t) = \max_{\pi} \mathbb{E}_{A} [Q_{\pi}(s_t, A)] V∗(st)=maxπVπ(st)=maxπEA[Qπ(st,A)]
- 因此, V ∗ ( s ) V^{*}(s) V∗(s)是动作价值函数 Q π ( s , a ) Q_{\pi}(s, a) Qπ(s,a)在policy函数 π \pi π上求期望得来的
- 根据定理 V ∗ ( s ) = max a Q ∗ ( s , a ) V^{*}(s) = \max_{a}Q^{*}(s, a) V∗(s)=maxaQ∗(s,a),因此 V ∗ ( s ) ⩾ Q ∗ ( s , a ) V^{*}(s) \geqslant Q^{*}(s, a) V∗(s)⩾Q∗(s,a)
- 这里, V ∗ ( s ) V^{*}(s) V∗(s)相当于是baseline,而 A ∗ ( s , a ) A^{*}(s, a) A∗(s,a)就是action a a a相对于baseline的优势