DDPG策略更新细节解释

DDPG算法原理

DDPG采用了AC框架,与普通AC不同的是,DDPG的actor采用的是确定性策略梯度下降法得出确定的行为,而不是行为概率分布,而critic则引用了DQN的经历回放策略,使RL学习收敛更快。

DDPG的组成

离线策略学习,与DQN类似,有target网络(拷贝),则actor和critic共4个网络:
critic_target_net
critic_eval_net
actor_target_net
actor_eval_net

1) critic_eval_net参数更新

依据TD_error更新:
在这里插入图片描述
critic_target_net输入包括:下一个状态s_t+1和来自actor_target_net的动作输出值
μ(s_t+1);
critic_eval_net输入包括当前状态s_t和由actor_eval_net给出的行为

2) actor_eval_net参数更新

依据确定性策略梯度上升更新:
在这里插入图片描述
基本思想:critic告诉actor,做这个行为a的话,梯度比较大,所以你的参数朝着这个行为梯度方向更新准没错;因此梯度因子中包括行为值函数对行为的梯度和行为策略对参数的梯度。

actor_eval_net输入包括:当前状态s_t
actor_target_net输入包括:下一状态s_t+1

具体更新时包括两个部分:actor_eval_net输出的当前状态s_t下的行为a对actor_eval_net参数的梯度;critic_eval_net输出的Q(s_t,a_t)对行为a的梯度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值