DQN

最新推荐文章于 2024-08-05 15:41:47 发布

JustJokerX

最新推荐文章于 2024-08-05 15:41:47 发布

阅读量5.9k

点赞数 2

分类专栏： DQN ml 文章标签：算法 DQN

ml 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

DQN

2 篇文章 0 订阅

订阅专栏

DQN 算法分析：
我们的环境是确定的，所以为了简单起见，这里给出的所有方程也是具有确定性的。在强化学习文献中，他们也将对环境随机转换产生预估。

我们的目标是训练一个策略来最大化回报 $R_{t_0} = \sum_{t=t_0}^{\infty} \gamma^{t - t_0} r_t$ , $\gamma$ 是折扣，是 $0$ 到 $1$ 之间的一个常数，用来保证和是收敛的。它让那些在未知的未来的具有不确定性的回报小一些，而让最近的未来的那些确定的回报保持较高的可信赖度。

Q-learning 的主要思想是如果我们有了一个函数 $Q^*: State \times Action \rightarrow \mathbb{R}$ ，它可以告诉我们当前的状态下执行某个动作的回报值是多少。如果有了这样的函数，那么我们可以很容易地构造相应的策略来最大化我们的回报：
\begin{align}\pi^(s) = \argmax_a \ Q^(s, a)\end{align}
然而，我们不知道关于这个世界的一切，所以我们没法准确获得 $Q^*$ ，但是，既然神经网络能够逼近所有函数，我们能够训练它使得它趋近于 $Q^*$ 。
对于我们训练提升的规则来说，默认对于一些策略，所有的 $Q$ 函数遵循 Bellman 方程：
\begin{align}Q^{\pi}(s, a) = r + \gamma Q^{\pi}(s’, \pi(s’))\end{align}
等式左右两边的区别被认为是暂时的误差 $\delta$ ：
\begin{align}\delta = Q(s, a) - (r + \gamma \max_a Q(s’, a))\end{align}
为了消除这个误差，我们要用到 Huber loss ，当误差较小的时候，Huber loss表现得像MES[mean squared error]，但是当误差较大时，MES会变得很大。所以这种损失函数让算法在估计 $Q$ 遇到很大的噪声时更加稳定。计算是针对从保存的replay memory中获取采样的B个样本：
\begin{align}\mathcal{L} = \frac{1}{|B|}\sum_{(s, a, s’, r) \ \in \ B} \mathcal{L}(\delta)\end{align}

\begin{align}\text{where} \quad \mathcal{L}(\delta) = \begin{cases}
\frac{1}{2}{\delta^2} & \text{for } |\delta| \le 1, \
|\delta| - \frac{1}{2} & \text{otherwise.}
\end{cases}\end{align}

JustJokerX

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
DQN

DQN 算法分析：我们的环境是确定性的，所以为了简单起见，这里给出的所有方程也是确定性地制定的。在强化学习文献中，他们也将对环境随机转换产生预估。我们的目标是训练一个策略来最大化回报Rt0=∑∞t=t0γt−t0rtR_{t_0} = \sum_{t=t_0}^{\infty} \gamma^{t - t_0} r_t, γ\gamma是折扣，是00到11之间的一个常数，用来保证和是收敛的。它
复制链接

扫一扫

专栏目录