莫烦python强化学习系列-DQN学习

本文介绍了DQN如何将神经网络与Q-learning相结合,以解决传统Q-learning在状态多时的局限性。DQN通过神经网络输入状态并输出动作的Q值,利用experience replay和fixed Q-targets两大技术提升学习效果。DQN算法概述包括从经历中随机抽取样本学习以及使用两个参数不同的神经网络分别预测Q估计和Q现实。
摘要由CSDN通过智能技术生成

       传统的Q-learning,我们使用表格来存储每一个状态 state, 和在这个 state 下,每个行为 action 所拥有的 Q 值。传统的Q-learning不适用状态多的情况。

 a1a2
s1Q(s1,a1)Q(s1,a2)
s2Q(s2,a1)Q(s2,a2)
..................

       DQN将神经网络和Q-learning结合。 我们可以将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到该动作的 Q 值; 还有一种形式的是这样, 我们也能只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作。莫烦老师的课程采用第二种形式。

DQN两大利器:

Experience replay:每次 DQN 更新的时候, 我们都可以随机抽取一些之前的经历进行学习

Fixed Q-targets:在 DQN 中使用到两个结构相同但参数不同的神经网络, 预测 Q 估计 的神经网络具备最新的参数, 而预测 Q 现实 的神经网络使用的参数则是很久以前的

具体算法如下:

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值