DQN笔记

在这里插入图片描述
DQN基于Q-Learning,也就是说DQN也是一个离线算法,它第一个关注点是解决空间状态爆炸的问题,也就是说它不解决连续动作的问题
tip:何谓连续动作
例子,取值为(0,1)之间任意数为连续变量,动作包含连续变量的叫做连续动作
最基础的思想是用一个神经网络来拟合Q-Table里面的Q值。
用到了神经网络那么就有一个训练的问题,训练的数据哪里来,与环境交互。最基础的DQN数据存储(s,a,r,s’)数据用于训练
DQN里面的网络是一个监督学习的过程,其目标是真实值和估计值之间的差值最小,术语叫做TD-ERROR,用公式来表示的化:
在这里插入图片描述
这个代表的是真实值,是的,真实值也是估计出来的,基础的DQN用target_network来选取action,同时计算这个真实值里面的Q值,然后减去需要学习网络估计出来的Q值。得到td-error
而被更新的那个原来的那个网络是根据经验被更新的网络,通过上面那个标签值和网络估计值最小利用梯度下降法来求解更新网络参数。
target_network是隔C步才更新的网络。它的存在就是为了存储一下那个被更新网络的状态。不能一边更新,一边标签值也在变吧。它本身不学习,每隔C步,学习经验的网络会把参数赋给它
还需要说的一点就是经验回放机制,也就是为什么要把经验(s,a,r,s’)存起来再随机选取来更新网络呢。
因为你跑一次,前一步和后一步是有强关联性的,所以经验回放就是为了破除这些关联性,就是学习的两条记录是独立的两条记录

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Attention DQNDQN with attention)是一种结合了注意力机制的深度Q网络(Deep Q-Network)。在传统的DQN中,网络只关注整个游戏屏幕的状态,而Attention DQN引入了注意力机制,使得网络可以专注于游戏屏幕中的特定区域。这意味着网络可以更加精细地感知游戏中的重要信息,提高了网络的学习效果和性能。通过内置的attention机制,可以实现在线监测训练过程,高亮显示agent正在关注的游戏屏幕区域。 引用中提到,Attention DQN是在DQN的基础上进一步发展而来的,结合了注意力机制。这一创新点使得网络能够更好地理解游戏的局部信息,并根据这些信息做出更准确的决策。 参考文献中的《Deep Attention Recurrent Q-Network》(DARQN)是关于Attention DQN的一篇重要研究论文,通过引入递归机制,进一步加强了网络对游戏中局部信息的处理能力。这些技术的引入使Attention DQN在强化学习任务中取得了显著的性能提升。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [论文笔记2:Deep Attention Recurrent Q-Network](https://blog.csdn.net/yyyxxxsss/article/details/80467093)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值