深度学习20-强化学习中的黑盒优化

最新推荐文章于 2025-03-31 10:49:27 发布

五百五。

最新推荐文章于 2025-03-31 10:49:27 发布

阅读量1.8k

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/clayhell/article/details/128666439

版权

本文探讨了强化学习中黑盒优化的重要性，包括进化策略和遗传算法。这些方法无需梯度信息，适合处理非平稳或复杂的奖励函数。尽管采样效率可能较低，但它们能有效并行化，尤其适用于神经网络参数化的策略搜索。进化策略通过添加噪声样本进行优化，而遗传算法则通过选择、交叉和突变操作更新策略。新颖性搜索（NS）作为优化策略，鼓励智能体探索新行为，从而在某些任务中展现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

### 强化学习中的黑盒优化

▪ 进化策略。
▪ 遗传算法。

黑盒方法具有几个非常吸引人的属性：
▪ 它们比基于梯度的方法至少快两倍，因为我们不需要执行反向传播步骤来获得梯度。
▪ 不会对优化的目标和被视为黑盒的策略做太多假设。当奖励函数不平滑或策略包含随机选择的步骤时，传统方法会遇到困难。对于黑盒方法而言，所有这些都不是问题，因为它们对黑盒内部并不期望太多。
▪ 这些方法通常可以很好地并行化。例如，上述的随机搜索可以轻松扩展到让数千个CPU或GPU并行工作，并且彼此之间没有任何依赖。对于DQN或策略梯度方法情况就不一样了，因为你需要累积梯度并将当前策略传播到所有并行的worker，而这会降低并行度。
它的缺点通常是较低的采样效率。尤其是对策略进行单纯的随机搜索时，策略是由具有几十万个参数的神经网络进行参数化的，那么搜索成功的可能性将非常低。

**进化策略**

. 初始化学习速率α、噪声标准差σ和初始值策略参数θ0。
2. 对于t = 0, 1, 2, …，执行：
1）采样带有权重形状的噪声样本：ε1, …, εn～N(0, 1)。
2）计算i = 1, …, n时的返回值Fi = F(θt + σεi)。
3）更新权重。

GA方法的步骤：
1. 初始化突变力量σ、人群总数N，要选择的个体数T和初始的人群P0，以及N个随机初始化的策略及其适应度：。
2. 对于g = 1…G：
1）对Pg–1按照适应度函数值Fg–1降序排序。
2）复制