强化学习—DQN算法原理详解

最新推荐文章于 2024-07-04 18:02:09 发布

baidu_huihui

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量1.9k

点赞数 1

分类专栏：强化学习 DQN

本文链接：https://blog.csdn.net/baidu_41617231/article/details/107674716

版权

本文详细介绍了强化学习中的DQN算法原理，包括其使用神经网络近似值函数，利用损失函数进行训练，以及DQN针对Q-Learning所做的改进，如目标网络和经验回放。此外，还阐述了DQN的算法流程和ϵ-贪心策略在探索与利用中的作用。

摘要由CSDN通过智能技术生成

强化学习—DQN算法原理详解

一、概述

强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。

说到DQN中有值函数网络，这里简单介绍一下强化学习中的一个概念，叫值函数近似。在基本概念这篇中有讲过，一个state action pair (s,a)(s,a)对应一个值函数Q(s,a)Q(s,a)。理论上对于任意的(s,a)(s,a)我们都可以由公式求出它的值函数，即用一个查询表lookup table来表示值函数。但是当state或action的个数过多时，分别去求每一个值函数会很慢。因此我们用函数近似的方式去估计值函数：^Q(s,a,w)≈Qπ(s,a)Q^(s,a,w)≈Qπ(s,a)

这样，对于未出现的state action也可以估计值函数。
至于近似函数，DQN中用的是神经网络，当然如果环境比较简单的话用线性函数来近似也是可以的。

DQN算法原文链接： 2013版(arxiv) 2015版(nature)

二、算法原理

在基本概念中有说过，强化学习是一个反复迭代的过程，每一次迭代要解决两个问题：给定一个策略求值函数，和根据值函数来更新策略。

上面说过DQN使用神经网络来近似值函数，即神经网络的输入是state ss,输出是Q(s,a),∀a∈AQ(s,a),∀a∈A (action space)。通过神经网络计算出值函数后，DQN使用ϵ−greedyϵ−greedy策略来输出action（第四部分中介绍）。值函数网络与ϵ−greedyϵ−greedy策略之间的联系是这样的：首先环境会给出一个obs，智能体根据值函数网络得到关于这个obs的所有Q(s,a)Q(s,a)，然后利用ϵ−greedyϵ−greedy选择action并做出决策，环境接收到此action后会给出一个奖励Rew及下一个obs。这是一个step。此时我们根据Rew去更新值函数网络的参数。接着进入下一个step。如此循环下去，直到我们训练出了一个好的值函数网络。

最低0.47元/天解锁文章

baidu_huihui

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习—DQN算法原理详解

强化学习—DQN算法原理详解一、概述强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。说到DQN中有值函数网络，这里简单介绍一下强化学习中的一个概念，叫值函数近似。在基本概念这篇中有讲过，一个state action pai
复制链接

扫一扫