强化学习-DQN

本文介绍了DQN算法的两个关键创新点:经验回放和固定Q目标,阐述了如何利用off-policy的优势来解决强化学习中样本关联性和非平稳性问题。详细解释了经验回放在打破序列决策样本关联性和提高样本利用率上的作用,以及固定Q目标如何稳定算法更新。此外,还概述了DQN算法的整体流程和伪代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解

目录

1.DQN的2个创新点

2.经验回放:利用off-policy的优势

3.固定Q目标(解决算法更新不平稳)

4.DQN流程图


1.DQN的2个创新点

监督学习的样本间x1,x2,x3一般是相互独立的。

而Q网络输入的是状态值,强化学习是一个序列决策的问题,前后的状态和影响是相互关联的,需要切断相互之间的联系才好使用神经网络,DQN利用off-policy的特性,先存储了一批数据,然后打乱,从中选取一个小的batch。

样本关联性  经验回放(Experience replay):   解决 1)序列决策的样本关联 2)样本利用率低。

非平稳性    固定Q目标(Fixed Q target):   解决 1)算法非平稳 。

2.经验回放:利用off-policy的优势

off-policy指的是在训练过程中可以保留两种不同的策略,Target policy=军师

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值