强化学习打卡之DDPG

DDPG是强化学习中处理连续动作空间的方法,与DQN不同,它采用确定性策略网络直接输出动作值。DQN无法解决连续动作问题,因为它输出每个动作的Q值。而Actor-Critic通过Policy Gradient实现策略迭代,适用于连续动作。DDPG结合了策略和Q网络,同时学习两者,并利用目标网络和经验回放缓冲区来稳定训练。
摘要由CSDN通过智能技术生成

强化学习打卡之DDPG

DDPG用来解决action是连续的问题,其实有个概念挺混乱的,DQN是用来解决状态空间和动作空间过大的问题,连续的动作变量不就是很大的动作空间吗,为啥它不能解决连续动作变量的问题呢,直到跟上上一章Actor-Critic对比才知道跟神经网络的输入输出有关,因为DQN的神经网络输出的每个动作的Q值,所以不能解决动作时连续的问题,而Actor-Critic可以,因为用到了PolicyGradient进行策略迭代输出动作的方法,Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为,则可能崩溃。
在这里插入图片描述

DDPG用的是确定性的网络,输出的直接是一个动作值,在连续的动作场景下,比如说我要输出这个机器人手臂弯曲的角度,这样子的一个动作,我们就输出一个具体的浮点数。而对随机性的策略来说,输入某一个状态 s,采取某一个 action 的可能性并不是百分之百,而是有一个概率 P 的,就好像抽奖一样,根据概率随机抽取一个动作。
在这里插入图片描述上面的神经网络输出是离散动作的概率,和为1,下面神经网络输出的是一个动作值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值