本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
目录
1.DQN的2个创新点
监督学习的样本间x1,x2,x3一般是相互独立的。
而Q网络输入的是状态值,强化学习是一个序列决策的问题,前后的状态和影响是相互关联的,需要切断相互之间的联系才好使用神经网络,DQN利用off-policy的特性,先存储了一批数据,然后打乱,从中选取一个小的batch。
样本关联性 经验回放(Experience replay): 解决 1)序列决策的样本关联 2)样本利用率低。
非平稳性 固定Q目标(Fixed Q target): 解决 1)算法非平稳 。
2.经验回放:利用off-policy的优势
off-policy指的是在训练过程中可以保留两种不同的策略,Target policy=军师