DQN笔记

显哥无敌

已于 2022-06-27 17:40:20 修改

阅读量821

点赞数 1

分类专栏：强化学习文章标签： RL

于 2022-06-27 17:38:50 首次发布

本文链接：https://blog.csdn.net/qq_41696858/article/details/125487944

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在这里插入图片描述
DQN基于Q-Learning，也就是说DQN也是一个离线算法，它第一个关注点是解决空间状态爆炸的问题，也就是说它不解决连续动作的问题
tip：何谓连续动作
例子，取值为（0，1）之间任意数为连续变量，动作包含连续变量的叫做连续动作
最基础的思想是用一个神经网络来拟合Q-Table里面的Q值。
用到了神经网络那么就有一个训练的问题，训练的数据哪里来，与环境交互。最基础的DQN数据存储（s，a，r，s’）数据用于训练
DQN里面的网络是一个监督学习的过程，其目标是真实值和估计值之间的差值最小，术语叫做TD-ERROR，用公式来表示的化：
在这里插入图片描述
这个代表的是真实值，是的，真实值也是估计出来的，基础的DQN用target_network来选取action，同时计算这个真实值里面的Q值，然后减去需要学习网络估计出来的Q值。得到td-error
而被更新的那个原来的那个网络是根据经验被更新的网络，通过上面那个标签值和网络估计值最小利用梯度下降法来求解更新网络参数。
target_network是隔C步才更新的网络。它的存在就是为了存储一下那个被更新网络的状态。不能一边更新，一边标签值也在变吧。它本身不学习，每隔C步，学习经验的网络会把参数赋给它
还需要说的一点就是经验回放机制，也就是为什么要把经验（s，a，r，s’）存起来再随机选取来更新网络呢。
因为你跑一次，前一步和后一步是有强关联性的，所以经验回放就是为了破除这些关联性，就是学习的两条记录是独立的两条记录

显哥无敌

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DQN笔记

DQN基于Q-Learning，也就是说DQN也是一个离线算法，它第一个关注点是解决空间状态爆炸的问题，也就是说它不解决连续动作的问题tip：何谓连续动作例子，取值为（0，1）之间任意数为连续变量，动作包含连续变量的叫做连续动作最基础的思想是用一个神经网络来拟合Q-Table里面的Q值。用到了神经网络那么就有一个训练的问题，训练的数据哪里来，与环境交互。最基础的DQN数据存储（s，a，r，s’）数据用于训练DQN里面的网络是一个监督学习的过程，其目标是真实值和估计值之间的差值最小，术语叫做TD-E
复制链接

扫一扫

专栏目录