深度学习20-强化学习中的黑盒优化

强化学习中的黑盒优化
摘要由CSDN通过智能技术生成

### 强化学习中的黑盒优化

▪  进化策略。
▪  遗传算法。

黑盒方法具有几个非常吸引人的属性:
▪  它们比基于梯度的方法至少快两倍,因为我们不需要执行反向传播步骤来获得梯度。
▪  不会对优化的目标和被视为黑盒的策略做太多假设。当奖励函数不平滑或策略包含随机选择的步骤时,传统方法会遇到困难。对于黑盒方法而言,所有这些都不是问题,因为它们对黑盒内部并不期望太多。
▪  这些方法通常可以很好地并行化。例如,上述的随机搜索可以轻松扩展到让数千个CPU或GPU并行工作,并且彼此之间没有任何依赖。对于DQN或策略梯度方法情况就不一样了,因为你需要累积梯度并将当前策略传播到所有并行的worker,而这会降低并行度。
它的缺点通常是较低的采样效率。尤其是对策略进行单纯的随机搜索时,策略是由具有几十万个参数的神经网络进行参数化的,那么搜索成功的可能性将非常低。

**进化策略**

. 初始化学习速率α、噪声标准差σ和初始值策略参数θ0。
2. 对于t = 0, 1, 2, …,执行:
  1)采样带有权重形状的噪声样本:ε1, …, εn~N(0, 1)。
  2)计算i = 1, …, n时的返回值Fi = F(θt + σεi)。
  3)更新权重。

  

  GA方法的步骤:
  1. 初始化突变力量σ、人群总数N,要选择的个体数T和初始的人群P0,以及N个随机初始化的策略及其适应度:。
  2. 对于g = 1…G:
  1)对Pg–1按照适应度函数值Fg–1降序排序。
  2)复制

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五百五。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值