DQN 算法及 Actor-Critic 算法

深度强化学习：DQN与Actor-Critic算法解析

最新推荐文章于 2025-04-08 13:09:38 发布

原创

最新推荐文章于 2025-04-08 13:09:38 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

本文详细介绍了DQN算法的关键概念，包括深度Q学习、目标网络、经验回放以及Double和Dueling DQN的改进。同时，文章探讨了Actor-Critic方法，如A2C和A3C，以及Pathwise Derivative Policy Gradient在连续动作空间中的应用。

1 关键概念

DQN(Deep Q-Network)：基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行网络的训练。
State-value Function：本质是一种critic。其输入为actor某一时刻的state，对应的输出为一个标量，即当actor在对应的state时，预期的到过程结束时间段中获得的value的数值。
State-value Function Bellman Equation：基于state-value function的Bellman Equation，它表示在状态 s_t 下带来的累积奖励 G_t 的期望。
Q-function: 其也被称为state-action value function。其input 是一个 state 跟 action 的 pair，即在某一个 state 采取某一个action，假设我们都使用 actor pi，得到的 accumulated reward 的期望值有多大。
Target Network：为了解决在基于TD的Network的问题时，优化目标
左右两侧会同时变化使得训练过程不稳定，从而增大regression的难度。target network选择将上式的右部分即