强化学习打卡之DQN与Actor-Critic

深度理解强化学习:DQN与Actor-Critic
本文探讨了强化学习中的DQN方法,它通过神经网络解决Q-learning在大动作空间的问题。接着对比了MC和TD的学习方式,并讨论了Q函数的两种表达形式。文章还提到了DQN训练的三个关键技巧:目标网络、探索策略和经验回放缓冲区。此外,介绍了Actor-Critic算法,它是策略梯度和TD学习的结合,同时讨论了其在估计Q和V网络时的挑战及解决方案。最后,简述了A3C算法用于加速策略梯度计算的方法。

强化学习打卡之DQN

DQN为了解决动作空间过大造成维数灾难问题在Q-learning的基础上引入了神经网络。DQN 主要是把 Q 函数通过价值函数近似方法转换为一个深度神经网络。神经网络输入的是状态,输出每个动作的Q值。

前面学过Q-learning 是一种value-based的方法,不是学习策略,而是说有一个critic通过MC based的方法或者TD based的方法得出状态值函数 V π(s)进行 Policy Evaluation(策略评估)。

MC VS.TD

在这里插入图片描述由上图MC和TD的更新公式可知两者各有优劣,MC是一个episode得到的累计奖励值,所以偏差较大,但是方差较大;而TD是每走一步就learn一下,更新的公式中的r是个随机量,会可能带来大的估计偏差,但是方差较小。

Q function

1.第一种写法:input 是 state 跟 action,output 就是一个 scalar
2.第二种写法:input 是一个 state s,output 就是好几个 value(仅对离散的action)
在这里插入图片描述在这里插入图片描述上图说明了Q-learning本质的问题是要找到一个策略π使得Q函数能取到最大值,而这个策略是用Q function推出

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值