SHADE应用于耦合矩阵优化

麟梦寒

已于 2023-11-15 19:41:45 修改

阅读量216

点赞数

文章标签：矩阵机器学习线性代数

于 2023-07-03 15:52:50 首次发布

本文链接：https://blog.csdn.net/qq_41292744/article/details/131100334

版权

基于成功历史的自适应差分进化算法（SHADE）

SHADE是基于JADE的有效优化，相比于JADE更稳定。

current-to-pbest

SHADE使用了JADE的优化策略DE/current-to-pbest。
$\begin{equation} v_{i,G}=x_{i,G}+F_i \centerdot(x_{pbest,G}-x_{i,G})+F_i\centerdot(x_{r1,G}-x_{r2,G}) \end{equation}$
相比于JADE中p是固定值，SHADE中p取值 $2/pop\_size,0.2]$ ，其中0.2是JADE作者在其论文中建议的最大值。

外部存储器

SHADE有一个外部存储器用于保存上一代被淘汰的亲本向量 $x_{i,G}$ ，该存储其中的样本集合被记为A，规定 $∣ A ∣ = ∣ P ∣$ ，当档案大小超过 $∣ P ∣$ 时，随机替换其中的样本，(1)式中 $x_{r2,G}$ 就取自 $P\cup A$ 。

参数自适应

$\begin{equation} CR_i=randn_i(\mu_{CR},0.1) \end{equation}\\[2mm] \begin{equation} F_i=randc_i(\mu_F,0.1) \end{equation}$
$r an d n$ 表示正态分布，形状相对集中，而 $r an d c$ 表示柯西分布，其形状则可以取更广的范围。

柯西分布的长尾特性可以更高的捕捉极端事件的发生概率。

生成的 $CR$ 如果超出范围[0,1]则取边界值，而 $F$ 如果大于1取1，小于等于0则重新生成。

在每一代中，在 $CR_i$ 和 $F_i$ 值成功生成优于亲本个体 $x_{i,G}$ 的试验向量 $u_{i,G}$ ，记录为 $S_{CR}$ ， $S_F$ ，并且在生成结束时，JADE中 $μ_{CR}$ ， $μ_F$ 更新为：
$\begin{equation} μ_{CR}=(1-c)\centerdot μ_{CR}+c\centerdot mean_{WA}(S_{CR}) \end{equation}\\[2mm] \begin{equation} μ_F=(1-c)\centerdot \mu_F+c\centerdot mean_L(S_F) \end{equation}$
其中， $mean_A$ 是算术均值， $mean_L$ 是莱默均值。

设 $x_1,x_2,...,x_n$ 是n个正实数， $t$ 为任意实数。
则莱默均值定义为：
$\begin{equation} L_t(x_1,...,x_n)=\frac{x_1^{t+1}+x_2^{t+1}+...+x_n^{t+1}}{x_1^{t}+x_2^{t}+...+x_n^{t}}=\frac{\sum_{i=1}^nx_i^{(t+1)}}{\sum_{i=1}^nx_i^{t}} \end{equation}$
之所以用莱默均值是因为 $F$ 是由柯西分布随机生成，可能存在部分极端值，而莱默均值对于极端值计算时还会考虑权重，对整个数据分布的形状更加稳健。

上式中 $\mu_{CR}$ 是使用算术均值更新的，这会偏置 $\mu_{CR}$ ，使其收敛到一个较小的值。因此SHADE采用了权重均值(6)。
$\begin{equation} mean_{WA}(S_{CR})=\sum_{k=1}^{|S_{CR}|}w_k\centerdot S_{CR,k} \end{equation}$
权重计算如下，其中 $\nabla f_k=|f(u_{k,G})-f(x_{x,G})|$ 。
$\begin{equation} w_k=\frac{\nabla f_k}{\sum_{k=1}^{|S_{CR}|}\nabla f_k} \end{equation}$
而由于权重的计算方式，在算法中，当 $f(u_{i,G})\leqslant f(x_{i,G})$ 时更新个体，而只在 $f(u_{i,G})<f(x_{i,G})$ 时记录 $S_{CR}$ 和 $S_F$ 。如流程图16-24行。
同样的， $\mu_F$ 也使用了权重·莱默均值进行更新，如下：
$\begin{equation} mean_{WL}=\frac{\sum_{i=1}^nw_i\centerdot x_i^{(t+1)}}{\sum_{i=1}^nw_i\centerdot x_i^{t}} \end{equation}$
在这里插入图片描述
$M_{CR}$ 和 $M_F$ 用于保存 $S_{CR}$ 和 $S_F$ ，全初始化为0.5。经试验，H取值为 $pop\_size$ 时收敛效果最好。
与JADE一样，成功个体使用的 $CR_i$ 和 $F_i$ 值记录在 $S_{CR}$ 和 $S_F$ 中，在生成结束时，存储器的内容更新如下：
$\begin{equation} M_{CR,k,G+1}= \begin{dcases} mean_{WA}(S_{CR}) &\text{if } S_{CR}\not=\empty \\ M_{CR,k,G} &\text{otherwise} \end{dcases} \end{equation}\\[2mm] \begin{equation} M_{F,k,G+1}= \begin{dcases} mean_{WL}(S_{F}) &\text{if } S_{F}\not=\empty \\ M_{F,k,G} &\text{otherwise} \end{dcases} \end{equation}$
显然当 $G$ 代中的所有个体未能生成比父代更好的试验向量时， $S_{CR}=S_F=\empty$ ，此时存储器不更新。 $k\in[1,H]$ ，决定存储器更新的位置，初始化为1，每次更新加1，当 $k\geqslant H$ 时重新赋值1。

算法流程图

在这里插入图片描述
为了避免陷入局部最优，我采用了排队搜索算法(Queuing search algorithm, QSA)来生成初始值。简单来说就是使用QSA优化一定轮次的随机矩阵，优化的结果作为SHADE的初始值。

通过对QSA与一些最先进或知名的元启发式算法的比较，证明了QSA是一种极具竞争力的元启发式算法，在跳出局部最优解和搜索全局最优解方面具有很大的优势和竞争力。

以下是近期实验结果整理：

N阶	SHADE		QSA-SHADE
N阶	成功率 (es<5e-6)	运行时间	成功率 (es<5e-6)	运行时间
6阶	77.5%	27.9s (epoch=2000)	67.5%	21.4s (epoch=2000)
8阶	100%	114.19s (epoch=6000)	100%	105.88s (epoch=6000)
10阶	65%	667.03s (epoch=10000)	72.5%	537.72s (epoch=10000)