进化策略算法（CMA-ES）

最新推荐文章于 2024-03-06 16:41:51 发布

丿回到火星去

最新推荐文章于 2024-03-06 16:41:51 发布

阅读量9.3k

点赞数 9

文章标签：机器学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0MzgxMDQ5OQ==&mid=2247484908&idx=1&sn=2355e4c6c39b53fa86da04872998da00&chksm=fb04f340cc737a5675c811b3bf17af0e7664e9642a3f5dd0eff1e4d244d4b56dead97ef6d771&token=885954438&lang=zh_CN#rd

版权

进化策略算法

文章目录

进化策略算法

本篇主要想对CMA-ES算法进行一个简单整理，CMA-ES算法学习的过程中，避免不了传统简单的ES算法的学习，都一起整理在这里便于更好的理解进化策略。

引言

ES(进化学习)是一种最优化算法，如神经网络梯度下降算法一样也是最优化算法的一种，但是跟梯度下降算法不同的是，ES是通过干预的方式影响结果，逐步选取最优点迭代，是一种不用考虑中间复杂函数关系的一种黑盒算法，不需要建立复杂的函数关系（如，dnn）只需要定义reward就可以直接对终极目标进行参数优化；对于中等规模的参数寻优，ES表现出很好的效果。对于一个优化问题，如果不能够直接对x和y定义他们之间的联系，或者说x和y之间联系很多且不好确定，可以直接选用ES算法。

ES主要做的事情伪代码表示如下：

Purpose: maximize(f(x))
Given: f(x)
1、init x               
2、while true:          
3、    generated r
4、    calc f(x+r)
5、    if f(x+r) > f(x):
6、        x = x+r
7、    if f(x) is ok:
8、        break
9、return x
--------------------------------------------------------------------
意图: 最大化f(x)   [或者理解最大化收益都可以]
给定: f(x)   [不同取值x对应收益f(x)(reward)，用于指导进化方向]
1、初始化 x   [一般给定初始解，基于此解进化寻优，或random也可]
2、while true: 
3、    生成 r   [r为随机扰动，一般由高斯分布生成]   
4、    计算 f(x+r)   [计算在r扰动下新解(x+r)的reward f(x+r)]
5、    if f(x+r) > f(x):   [判断如果此扰动(x+r)产生结果由于此前x结果，进化]
6、        x = x+r   [进化替换原有解]
7、    if f(x) is ok:   [满足条件跳出]
8、        break
9、return x   [得到最优解x，最大收益f(x)]

二元ES:(1+1)-ES

就从ES算法中最简单的(1+1)-ES算法说起，顾名思义，是一个父代通过高斯变异产生一个子代寻优的算法，以下简单描述下：

选择一个初始解x；
通过初始解x和变异强度 $\delta$ ，产生新解 $y=x+N(0,\delta)$ ；
比较f(x)和f(y)，如果变异成功 $(f (y) > f (x))$ , 则y替换x；
重复执行2、3步，直到满足条件跳出。

二元ES的变异强度是由一个为 $\delta$ 的正太分布 $N(0,\delta)$ 产生所决定的。我在这里理解 $\delta$ 为变异强度，通过控制分布、选取扰动影响进化强度；通过对比扰动带来的reward选择成功变异的扰动，控制进化方向。所以有理由认为能否找到最优解很大程度上取决于 $\delta$ 。接下来，如果能够根据此 $\delta$ 影响下变异成功的概率，去调控 $\delta$ ，想必也是一种改进，基于此在这里补充下"1/5 success rule"，即根据历史成功变异能力不断的调控 $\delta$ 。

稍微官方一点的公式如下：
$\delta^{g+1}= \begin{cases} \delta^{g}(1/c_d) \ \ \ if(ps>1/5)\\ \delta^g{c_d} \ \ \ if(ps)<1/5\\ \delta^{g} \ \ \ else \end{cases}$

$c_d$ 为固定值0.817，以上公式很好理解，在此 $\delta$ 的变异强度下如果成功概率大于1/5说明在此空间内有一个更有的解，反之需要以更大的变异强度去搜寻最优解，这种方法是由于简单随机（蒙特卡洛方法）选择扰动的方法的。

多元ES(u+ $\lambda$ )-ES

另外除了对变异强度 $\delta$ 的调整，多元ES引入种群的方法，即使用多个父代和子代，这里用 $u$ 表示父代、 $\lambda$ 表示子代。

初始化 $u$ 个初始解 $x_1,x_2..x_i..x_u$ ；
通过初始解 $x_1,x_2..x_i..x_u$ 和变异强度 $\delta$ 创建 $\lambda$ 个变异解 $y_1,y_2..y_j..y_{\lambda}$ ，执行 $\lambda$ 次，每次随机选择一个父代 $x_i$ ，产生新解 $y_j=x_i+N(0,\delta)$ ；
在子代和父代的并集P中选择最优的 $u$ 个解（为了保持父代种群数量不变）； $P=(U_i^u\\{x_i\\})U(U_j^{\lambda}\\{y_j\\})$
重复执行2、3步，直到满足条件跳出。

这里一般 $\lambda/u=5$ ，从父代和子代中选取Top，这是一种精英算法，在某些优化场景中，保留精英是十分必要的。但是这种做法易导致算法收敛于局部最优，减少继续对未知空间的探索。多元ES(u, $\lambda$ )-ES在以上第3步中改为选择子代 $\lambda$ 中最优的u个解一定程度上缓解了这个问题，这也是这两个算法的不同。

重组：已上示例以单变量来阐述，若是对多个变量寻优，可以理解为对多维空间的一个点寻优，在不同的采样点之间的不同维度进行替换之类的操作可简单理解为重组。

CMA-ES

CMA-ES（协方差矩阵自适应进化策略算法）相比于已上集中简单的方法，有些许改进，从名字就能看出，能够进行自我调整。首先对于多维向量，将协方差信息放入矩阵中，基于此矩阵的多维高斯正太分布生成随机点，另外维护历史步长对多维高斯分布参数进行平滑调整。

一句话概括ES的流程： 使用产生topN reward的扰动 $y^g_i, i\in(1...i..n)$ ，去调整 $\delta,p_{\delta},C,p_c$ 等参数，这些参数影响下一次扰动的生成，生成更为接近最优解的 $y^{g+1}_i$ 。（其中 $p_{\delta}$ 维护了 $\delta$ 的历史变化，为了给 $\delta$ 做平滑而存在； $p_c$ 维护了 $C$ 的历史变化，为了给 $C$ 做平滑而存在；这种方法使用参数历史步长的指数平均来不断更新参数，能够减少震荡，使分布生成的扰动逐步接近最优解）

具体算法流程、更新步骤如下：

CMA-ES

learning rete: $\alpha_u,\alpha_{\delta},\alpha_{cp},\alpha_{c1},\alpha_{c\lambda}$ （分别用于更新 $\alpha$ 下标所带的参数，可直接设定）
damping factor: $d_{\delta}$ （阻尼参数，控制缩放 $ln\delta^g$ 的改变幅度）
generation counter: t=0（进化次数计数，第t代进化）
input,initial mean vectors and step size: $u^{(0)}\in R^n,\delta \in E_+$ （ $u^{(0)}$ 为n维向量，每一维为对应维度均值； $\delta$ 为标量，可理解为是从协方差矩阵中分离出来的，控制着分布的整体尺度，可以比完整的协方差更快地改变全局步长）
initlalize covariance matrix and evolution path: $C^{(0)}=I,p_{\delta}^{(0)},p_{c}^{(0)}=0;C^{(0)} \in R^{n * n},p_{\delta}^{(0)}\in R^{n},p_{c}^{(0)}\in R^{n}$ （初始化 $C$ 为单位矩阵，进化路径 $p$ 都为0向量）
repeat: a) $x_{i}^{(t+1)}=u^(t)+\delta^{(t)} y_i, where\ y_i \sim\ N(0,C^{(t)}),i=1...\Lambda$ （按照协方差矩阵 $C$ 构成的高斯混合分布，随机采样 $y_i$ ，乘整体步长 $\delta^{(t)}$ ，加和均值 $u^{(t)}$ 得到t+1代采样点 $x_{i}^{(t+1)}$ ，注意这里都为向量，多维数据。[这里理解下t+1代，可理解当前代，ES最重要的就是参数的生成，主要由 $C,\delta,p$ 等确定，当前代利用上一代参数生成当前代采样点，并且为下一次进化计算参数]）
repeat: b) Select top $\lambda$ with the base performance $x_{i}^{(t+1)},i=1...\lambda$ ，按照reward排序选取top $\lambda$
repeat: c) update $u^{(t+1)}\leftarrow u^{(t)}+\alpha_u{{1}\over{\lambda}}\sum_{i=0}^{\lambda}(x_{i}^{t+1}-u^{(t)})$ ，（这里为考虑嵌套上一代的 $u^{(t+1)}$ 代均值更新，仔细思考下，是融入了历史均值，当学习率 $\alpha_u$ 为1时，更新计算为本代均值）
repeat: d) update $p_{\delta}^{(t+1)}\leftarrow (1-\alpha_{\delta})p_{\delta}^{(t)}+\sqrt{\alpha_{\delta}(2-\alpha_{\delta})\lambda}C^{(t)-{{1} \over {2}}} {{u^{(t+1)}-u^{(t)}} \over \delta^{(t)}}$
repeat: e) update $\delta^{(t+1)}\leftarrow \delta^{(t)}exp({{\alpha_{\delta}}\over{d_{\delta}}}({{\|p_{\delta}^{(t+1)}\|}\over{E\|N(0,I)\|}}-1))$
repeat: f) update $p_c^{(t+1)}\leftarrow (1-\alpha_{cp})p_{c}^{(t)}+\sqrt{\alpha_{cp}(2-\alpha_{cp})\lambda} {{u^{(t+1)}-u^{(t)}} \over \delta^{(t)}}$ ，
repeat: g) update $C^{(t+1)}\leftarrow (1-\alpha_{c\lambda}-\alpha_{c1})C^{(t)}+\alpha_{c1}p_c^{(t+1)}p_c^{(t+1)^T}+\alpha_{c\lambda}{{1}\over{\lambda}}\sum_{i=1}^{\lambda}y_i^{(t+1)}y_i^{(t+1)^T}$ ，
repeat: h) update $t\leftarrow t+1$ ，
until hit stop criteria:（达到跳出条件，停止重复已上循环）