CMA-ES算法流程

最新推荐文章于 2024-06-08 09:55:38 发布

做技术不可耻

最新推荐文章于 2024-06-08 09:55:38 发布

阅读量1w

点赞数 11

文章标签：随机优化

本文链接：https://blog.csdn.net/qq_40019838/article/details/99882885

版权

CMA-ES算法流程

对多元高斯分布进行采样得到新解，使用其中较好的解更新高斯分布的参数，最大熵原理(均值和方差已知时，高斯分布具有的信息熵最大，正因为如此高斯分布在自然界中才会这么普遍)。

1 产生新解

$x^{(g+1)}_k \sim m^{(g)}+\sigma^{(g)} N(0,C^{(g)}) \quad for\ k = 1,...,\lambda \tag{1}$

$\sim$ 表示左右服从相同分布。

$N(0,C^{(g)})$ 表示均值为 $0$ ，协方差矩阵为 $C^{(g)}$ 的正态分布， $m^{(g)}+\sigma^{(g)} N(0,C^{(g)}) ∼N(m^{(g)},(\sigma^{(g)} )^2C^{(g)})$ 。

$x^{(g+1)}_k\in R^n$ ，第 $g + 1$ 代的第 $k$ 个后代。

$m^{(g)}\in R^n$ ，第 $g$ 代搜索分布的均值。

$\sigma^{(g)}\in R_{>0}$ ，第 $g$ 代的步长。

$C^{(g)}\in R^{n\times n}$ ，第 $g$ 代的协方差矩阵。

$\lambda \geq 0$ ，抽样数量，子代数量。

为了定义完整的算法步骤，剩下的问题是如何计算 $m^{(g+1)}$ ， $C^{(g+1)}$ 和 $\sigma^{(g+1)}$ 。

2 更新均值

$m^{(g+1)}$ 是从 $x^{(g+1)}_1,...,x^{(g+1)}_{\lambda}$ 中选择的 $\mu$ 个样本的带权均值：
$m^{(g+1)}=\sum_{i=1}^{\mu}w_ix^{(g+1)}_{i:\lambda}\tag{2}$

$\sum_{i=1}^{\mu}w_{i}=1, \quad w_{1} \geq w_{2} \geq ... \geq w_{\mu}>0\tag{3}$

$\mu \leq \lambda$ ，父样本的大小和选择的样本的大小。

$w_{i=1...\mu}\in R_{>0}$ ，正权值。

$x^{(g+1)}_{i:\lambda}$ ， $x^{(g+1)}_1,\cdots,x^{(g+1)}_{\lambda}$ 中第 $i$ 个最好的个体， $f(x^{(g+1)}_{1:\lambda})\leq f(x^{(g+1)}_{2:\lambda})\leq\cdots\leq f(x^{(g+1)}_{\lambda:\lambda})$ 。

等式(2)通过使 $\mu<\lambda$ 实现截断选择，具有不同的权值是一种选择机制。
$\mu_{eff}=(\frac{\mid \mid w \mid\mid_1}{\mid \mid w \mid\mid_2})^2= \frac{\mid \mid w \mid\mid_1^2}{\mid \mid w \mid\mid_2^2}=\frac{(\sum_{i=1}^{\mu}\mid w_i \mid)^2}{\sum_{i=1}^{\mu}w^2_i}=\frac{1}{\sum_{i=1}^{\mu}w^2_i}\tag{4}$
可以被理解为方差有效选择质量，可以看出 $\leq \mu_{eff} \leq \mu$ 并且当权值相同时 $\mu_{eff}=\mu$ ，通常 $\mu_{eff} \approx \lambda/4$ 时表示 $w_i$ 的设置是合理的，一个简单且合理的设置是 $w_i \varpropto u-i+1$ ，并且 $\mu \approx \lambda/2$ 。

最终的公式如下所示：
$m^{(g+1)}=m^{(g)}+c_m\sum_{i=1}^{\mu}w_i(x^{(g+1)}_{i:\lambda}-m^{(g)})\tag{5}$
$c_m \leq 1$ 表示学习率，通常取1。

公式(5)是公式(2)的一般化， $c_m\sum_{i=1}^{\mu}w_i=1$ 是默认的参数设置，在噪声函数中选择 $c_m<1$ 较好。

3 自适应协方差矩阵

估计协方差矩阵，使用 $\mu$ 个被选择的样本加权计算
$C_{\mu}^{(g+1)}=\sum_{i=1}^{\mu} w_{i}\left(\boldsymbol{x}_{i : \lambda}^{(g+1)}-\boldsymbol{m}^{(g)}\right)\left(\boldsymbol{x}_{i : \lambda}^{(g+1)}-\boldsymbol{m}^{(g)}\right)^{\top}$
$rank-\mu- Update$ ，样本服从 $N(0,C^{(g)}) ∼N(m^{(g)},(\sigma^{(g)} )^2C^{(g)})$ 的分布，所以要除 $\sigma^{(g)^2}$ ，指数平滑，使最近的代有较高的权重，累积以前的信息，叫做 $rank-\mu-Update$ 是因为 $rank(C_{\mu}^{(g+1)})=min(\mu, n)$
$\begin{aligned} \boldsymbol{C}^{(g+1)} &=\left(1-c_{\mu}\right) \boldsymbol{C}^{(g)}+c_{\mu} \frac{1}{\sigma^{(g)^2}} \boldsymbol{C}_{\mu}^{(g+1)} \\ &=\left(1-c_{\mu}\right) \boldsymbol{C}^{(g)}+c_{\mu} \sum_{i=1}^{\mu} w_{i} \boldsymbol{y}_{i : \lambda}^{(g+1)} \boldsymbol{y}_{i : \lambda}^{(g+1)^{\top}} \end{aligned}$
其中 $\boldsymbol{C}^{(0)}=\mathbf{I}$ ， $\boldsymbol{y}_{i : \lambda}^{(g+1)}=\left(\boldsymbol{x}_{i : \lambda}^{(g+1)}-\boldsymbol{m}^{(g)}\right) / \sigma^{(g)}$ ， $c_\mu \leq 1$ 学习率。

一般化
$\begin{aligned} \boldsymbol{C}^{(g+1)} &=\left(1-c_{\mu} \sum w_{i}\right) \boldsymbol{C}^{(g)}+c_{\mu} \sum_{i=1}^{\lambda} w_{i} \boldsymbol{y}_{i : \lambda}^{(g+1)} \boldsymbol{y}_{i : \lambda}^{(g+1)^{\top}} \\ &=\boldsymbol{C}^{(g)^{1 / 2}}\left(\mathbf{I}+c_{\mu} \sum_{i=1}^{\lambda} w_{i}\left(\boldsymbol{z}_{i : \lambda}^{(g+1)} \boldsymbol{z}_{i : \lambda}^{(g+1)^{\top}}-\mathbf{I}\right)\right) \boldsymbol{C}^{(g)^{1 / 2}} \end{aligned}$
其中 $\boldsymbol{z}_{i:\lambda}^{g+1}=\boldsymbol{C}^{(g)-1/2}\boldsymbol{y}_{i:\lambda}^{g+1}$ ， $\sum_{i=1}^{\mu}w_i=1$ ， $\sum_{i=1}^{\lambda}w_i\approx0$ ， $c_\mu \approx u_{eff} / n^2$ 。

$R a n k - 1 - U p d a t e$ ，使上一代最好的样本出现的几率更高
$\boldsymbol{C}^{(g+1)}=\left(1-c_{1}\right) \boldsymbol{C}^{(g)}+c_{1} \boldsymbol{y}_{g+1} \boldsymbol{y}_{g+1}^{\top}$
其中 $\boldsymbol{y}_{g+1}=\frac{\boldsymbol{x}_{1 . \lambda}^{(g+1)}-\boldsymbol{m}^{(g)}}{\sigma(g)}$ 。

使用进化路径累积以前的信息，指数平滑
$\boldsymbol{p}_{\mathrm{c}}^{(g+1)}=\left(1-c_{\mathrm{c}}\right) \boldsymbol{p}_{\mathrm{c}}^{(g)}+\sqrt{c_{\mathrm{c}}\left(2-c_{\mathrm{c}}\right) \mu_{\mathrm{eff}}} \frac{\boldsymbol{m}^{(g+1)}-\boldsymbol{m}^{(g)}}{\sigma^{(g)}}$
其中 $\boldsymbol{p}_{\mathrm{c}}^{(0)}=\mathbf{0}$ ， $c_{\mathrm{c}} \leq 1$ ， $\boldsymbol{p}_{\mathrm{c}}^{(g+1)} \sim \mathcal{N}(\mathbf{0}, \boldsymbol{C})$ 。
$\boldsymbol{C}^{(g+1)}=\left(1-c_{1}\right) \boldsymbol{C}^{(g)}+c_{1} \boldsymbol{p}_{\mathrm{c}}^{(g+1)} \boldsymbol{p}_{\mathrm{c}}^{(g+1)^{\top}}$
$c_{1} \approx 2/n^2$ ，学习率。

结合
$\begin{aligned} \boldsymbol{C}^{(g+1)}=\left(1-c_{1}-c_{\mu} \sum w_{j}\right) \boldsymbol{C}^{(g)} +c_{1} \boldsymbol{p}_{\mathrm{c}}^{(g+1)} \boldsymbol{p}_{\mathrm{c}}^{(g+1)^{\top}} +c_{\mu} \sum_{i=1}^{\lambda} w_{i} \boldsymbol{y}_{i : \lambda}^{(g+1)}\left(\boldsymbol{y}_{i : \lambda}^{(g+1)}\right)^{\top} \end{aligned}$
其中

${c_{1} \approx 2 / n^{2}}$

${c_{\mu} \approx \min \left(\mu_{\mathrm{eff}} / n^{2}, 1-c_{1}\right)}$

${\boldsymbol{y}_{i:\lambda}^{(g+1)}=\left(\boldsymbol{x}_{i:\lambda}^{(g+1)}-\boldsymbol{m}^{(g)}\right)/\sigma^{(g)}}$

$\sum w_{j}=\sum_{i=1}^{\lambda} w_{i} \approx-c_{1} / c_{\mu}$

4 步长更新

共轭进化路径，指数平滑
$\boldsymbol{p}_{\sigma}^{(g+1)}=\left(1-c_{\sigma}\right) \boldsymbol{p}_{\sigma}^{(g)}+\sqrt{c_{\sigma}\left(2-c_{\sigma}\right) \mu_{\mathrm{eff}}} \boldsymbol{C}^{(g)^{-\frac{1}{2}}} \frac{\boldsymbol{m}^{(g+1)}-\boldsymbol{m}^{(g)}}{\sigma^{(g)}}$
其中 $\boldsymbol{p}_{\sigma}^{(0)}=\mathbf{0}$ ， $c_{\sigma}<1$ 。

步长更新
$\begin{aligned} \ln \sigma^{(g+1)}&=\ln \sigma^{(g)}+\frac{c_{\sigma}}{d_{\sigma}}\left(\frac{\left\|\boldsymbol{p}_{\sigma}^{(g+1)}\right\|}{\mathrm{E}\|\mathcal{N}(\mathbf{0}, \mathbf{I})\|}-1\right)\\ \sigma^{(g+1)}&=\sigma^{(g)} \exp \left(\frac{c_{\sigma}}{d_{\sigma}}\left(\frac{\left\|\boldsymbol{p}_{\sigma}^{(g+1)}\right\|}{\mathrm{E}\|\mathcal{N}(\mathbf{0}, \mathbf{I})\|}-1\right)\right) \end{aligned}$
其中 $d_{\sigma}\approx1$ ， $\mathrm{E}\|\mathcal{N}(\mathbf{0}, \mathbf{I})\|=\sqrt{2} \Gamma\left(\frac{n+1}{2}\right) / \Gamma\left(\frac{n}{2}\right) \approx \sqrt{n}+\mathcal{O}(1 / n)$ 。

做技术不可耻

关注

11
点赞
踩
51

收藏

觉得还不错? 一键收藏
9
评论
CMA-ES算法流程

CMA-ES算法流程根据多元高斯分布生成下一代，使用其中较好的后代更新高斯分布的参数，最大熵原理。1 产生新解(1)xk(g+1)∼m(g)+σ(g)N(0,C(g))for k=1,...,λx^{(g+1)}_k \sim m^{(g)}+\sigma^{(g)} N(0,C^{(g)}) \quad for\ k = 1,...,\lambda \tag{1}xk(g+1...
复制链接

扫一扫