DDPG算法

无模型的策略搜索方法分为随机策略搜索方法(如策略梯度)和确定性策略搜索方法(DDPG)
随机策略:采用随机策略,即使在相同的状态,每次所采取的动作也可能不一样。
本身自带探索,通过探索产生各种各样的数据,强化学习通过在这些好的数据中学到新知识从而改进当前的策略。

确定性策略:相同的策略,在相同的状态下,动作是唯一确定的。
确定性策略在给定状态和策略参数时,动作是固定的。也就是,当初始状态已知,使用确定性策略所产生的轨迹永远是固定的,智能体无法探索其它的轨迹或者访问其它的状态。
确定性测了利用off-policy学习方法,整个学习过程采用AC框架,Actor行动策略采用随机策略,以保证充足的探索,Cristic评估策略是确定性策略,利用函数逼近方法估计值函数。

DDPG原理:
DDPG全称深度确定性策略梯度。它是Actor-Cristic、DQN和策略梯度的结合。
(1)Deep是指利用深度神经网络逼近行为值函数,并引用了DQN的两个技巧:经验回放和独立的目标网络。
(2)Deterministic Policy Gradient(DPG)
Actor方法用来调整值; Critic方法逼近值函数:
在这里插入图片描述
Actor:参数更新方式是基于梯度上升的,该网络的损失函数是从cristic网络中获取的Q值的平均值,在实现的过程中,需要加入负号,即最小化损失函数,来与深度学习框架保持一致。
Actor输出的是一个动作;
在这里插入图片描述
Cristic:参数更新方式与DQN算法一致,就是通过最小化目标网络与现有网络之间的均值误差来更新现有网络的参数,目标网络参数是缓慢更新的。
Critic的输入有两个:动作和状态,需要一起输入到Critic中;
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值