【智能优化算法】文献阅读总结_an improved whale optimization algorithm based on -CSDN博客

本文链接：https://blog.csdn.net/T01151018/article/details/145881977

前言

本人目前的研究方向是与智能优化算法相关，在阅读文献的过程中容易忘记一些关键点，所以在这里结合AI工具做一些文献总结，持续更新中…

智能优化算法（启发式算法、元启发式算法（MetaHeuristic Algorithm））要解决的一般是最优化问题。最优化问题可以分为求解一个函数中，使得函数值最小的自变量取值的函数优化问题和在一个解空间里面，寻找最优解，使目标函数值最小的组合优化问题。典型的组合优化问题有：旅行商问题（Traveling Salesman Problem，TSP），加工调度问题（Scheduling Problem），0－1背包问题（Knapsack Problem），以及装箱问题（Bin Packing Problem）等。

AI话术：

整理这篇文档，给出详细的改进策略，涉及到的所有公式严格以latex行内公式的格式（如$x_2$）输出，方便复制
这篇文章做了哪些工作，文中涉及的实验，列出表格对工作量进行说明

一、MEWOA

1. An improved whale optimization algorithm based on multi-population evolution for global optimization and engineering design problems（SCI一区Top，非OA）

2. 改进策略详解

为解决鲸鱼优化算法（WOA）收敛速度慢和易陷入局部最优的问题，本文提出基于多种群进化的鲸鱼优化算法（MEWOA），其改进策略如下：

多种群划分：根据个体适应度将鲸鱼种群划分为三个规模相等的子种群，且每次迭代后会依据当前适应度重新排序，使各子种群个体动态更新。
- 探索子种群：由适应度较差的个体组成，负责全局探索。因为这些个体远离当前最优解，所以采用WOA的探索阶段策略，致力于为算法寻找新的潜在解。
- 开发子种群：由适应度良好的个体构成，专注于局部开发。它们靠近当前最优解，利用WOA的开发阶段策略在当前最优解附近进行精细搜索，以此加快收敛速度并提高解的精度。
- 适度子种群：个体适应度介于前两者之间，用于平衡探索和开发。其移动策略是随机选择探索或开发，以一定概率决定采用类似探索子种群的全局探索方式，还是类似开发子种群的局部开发方式。
位置更新策略：针对不同子种群制定不同的位置更新公式，使算法在全局探索和局部开发上能更好地平衡。
- 探索子种群：利用WOA探索阶段公式 $1)=X^{rand}(t)-A\cdot D$ （其中 $|C\cdot X^{rand}(t)-X(t)|$ ）更新位置，专注于全局探索新区域。
- 开发子种群：借助WOA开发阶段公式 $1)=\begin{cases}X^{*}(t)-A\cdot D& \text{if } p<0.5\\D'\cdot e^{bt}\cdot \cos(2\pi l)+X^{*}(t)& \text{if } p\geq0.5\end{cases}$ （其中 $D' = |X^{*}(t)-X(t)|$ ），聚焦于在当前最优解附近进行局部搜索，提升收敛速度和求解精度。
- 适度子种群：其位置更新公式为 $1)=\begin{cases}\begin{cases}X^{*}(t)-A\cdot D& \text{if } p_{1}<0.5\\D'\cdot e^{Nt}\cdot \cos(2\pi t)+X^{*}(t)& \text{if } p_{1}\geq0.5\end{cases}& \text{if } p_{2}<0.5\\X^{rand}(t)-A\cdot D& \text{if } p_{2}\geq0.5\end{cases}$ ， $p_{1}$ 和 $p_{2}$ 为 $[0, 1]$ 间的随机数，通过随机决策实现探索与开发的平衡。
种群进化策略：MEWOA规定当迭代次数 $t$ 为奇数时进行位置更新， $t$ 为偶数时进行种群进化，以提升种群多样性、加快收敛速度并避免局部最优。
- 探索子种群：个体通过增大位置向量的绝对值来拓宽搜索范围，增强全局探索能力，公式为 $r_{1}=rand[0,1]+1$ ， $1)=X(t)\cdot r_{1}$ （ $r_{1}$ 取值范围是 $[1, 2]$ ）。若当前位置是局部最优解，该公式能使个体以一定概率跳出局部最优。
- 开发子种群：在当前最优解附近执行深度局部搜索，进化公式为 $r_{2}=2\cdot rand[0,1]$ ， $1)=X^{\alpha}(t)\cdot r_{2}$ （ $r_{2}$ 取值范围是 $[0, 2]$ ， $x^{*}(t)$ 是当前最优解的位置向量），充分利用当前最优解的位置信息加速收敛并提高解的精度。
- 适度子种群：基于反向学习（OBL）进行位置进化，公式为 $\hat{X}(t)=lb + ub - X(t)$ ， $1)=\begin{cases}\hat{X}(t)& \text{if } fit(\hat{X}(t)) \text{ better than } fit(X(t))\\X(t)& \text{else}\end{cases}$ ，其中 $l b$ 和 $u b$ 是问题空间的上下边界， $f i t$ 是目标函数。通过OBL增加种群多样性，帮助算法跳出局部最优并探索新区域。
子种群间合作通信：MEWOA每次迭代后会依据个体当前适应度重新划分三个子种群。在位置更新或种群进化过程中，个体位置改变会导致适应度变化，进而使各子种群自动更新。这种合作通信机制使每个个体在不同迭代阶段可被分类到不同子种群，拥有多样化的移动策略和种群进化过程，有助于个体在下次位置更新时决定是探索还是开发。
流程图

3. 工作量评估

工作内容	详情
算法对比实验	1. 对比算法：与5种先进的WOA变体（ACWOA、OBCWOA、RDWOA、TBWOA、eWOA）和7种基本元启发式算法（PSO、ABC、MFO、GWO、WOA、SCA、SSA）进行对比。 2. 基准函数：使用30个基准函数，包括F1 - F15单峰函数（测试开发能力）和F16 - F30多峰函数（测试探索能力），维度分别为100、500、1000和2000。 3. 实验次数及指标：每个算法在基准函数上独立运行30次，计算均值（Mean）、标准差（Std）和排名（Rank），以评估算法性能。
敏感性分析实验	1. 实验设置：选择4种不同的(P/t)组合（15/1000、30/500、60/250、75/200），在不同维度（(N)为100、500、1000、2000）下对MEWOA进行测试。 2. 对比函数：选取6个函数（3个单峰函数F1、F5、F7和3个多峰函数F18、F20、F30）进行对比分析。
Friedman检验	1. 检验目的：对所有算法在基准函数上的结果进行Friedman检验，分析MEWOA与其他算法的性能差异。 2. 指标计算：计算Rank - Count（排名总和）、Ave - Rank（平均排名）和Overall - Rank（最终排名）。
Wilcoxon符号秩检验	1. 检验目的：基于5%的显著性水平，使用Wilcoxon符号秩检验评估MEWOA与其他算法在基准函数上结果的差异，判断算法性能差异是否显著。 2. 判断标准：当(p)小于0.05且(h)等于1时，认为该算法与MEWOA有显著差异；当(p)大于0.05且(h)等于0时，认为无显著差异；当(P)为NaN时，认为该算法与MEWOA结果相同。
收敛性分析	1. 分析标准：以目标函数的适应度评估次数（FEs）为标准，在迭代次数为500、种群大小为30（FEs最大为15000）的情况下，分析MEWOA和其他算法的收敛性。 2. 实验展示：绘制函数维度为100、500、1000和2000时的收敛图，每个收敛图包含3个单峰函数和3个多峰函数；展示MEWOA在4个函数（F3和F7为单峰函数，F17和F25为多峰函数）上的搜索历史。
稳定性分析	1. 分析方法：使用箱线图分析所有算法的稳定性，每个算法独立运行30次。 2. 实验设置：基于函数维度100、500、1000和2000进行4组实验，每组实验分为与WOA变体对比和与基本元启发式算法对比两组，每组随机选择3个函数进行对比。
平均执行时间分析	1. 实验环境：在CPU上进行实验，函数维度为1000，每个算法独立运行30次。 2. 时间计算：计算MEWOA和其他算法的平均执行时间，并进行排名。
复杂全局优化实验	1. 测试工具：使用CEC 2019测试套件，该套件包含10个复杂函数，用于评估MEWOA、WOA和5种WOA变体解决复杂全局优化问题的能力。 2. 实验指标：计算每个算法在测试套件上的均值（Mean）、标准差（Std）和排名（Rank），并进行Friedman检验，计算平均排名和总体排名。
工程设计问题实验	1. 问题选择：选择4个约束工程设计问题，即齿轮传动设计问题、压力容器设计问题、悬臂梁设计问题和三杆桁架设计问题。 2. 对比算法：在齿轮传动设计问题中与7种算法对比；压力容器设计问题中与13种算法对比；悬臂梁设计问题中与9种算法对比；三杆桁架设计问题中与7种算法对比。 3. 参数讨论：针对工程设计问题，固定维度，讨论不同(P)和(t)对MEWOA求解效率的影响，设置6种不同的(P/t)组合（6/125、15/250、24/350、30/500、45/750、60/1000）进行实验，计算最佳结果（Best）、均值（Mean）、标准差（Std）和排名（Rank）。
图表展示	1. 算法性能对比图：图5和图6展示了单峰函数和多峰函数在不同维度下各算法的平均排名；图17展示了CEC 2019测试套件中各算法的平均排名。 2. 收敛图：图7 - 图10展示了MEWOA和其他算法在不同维度下的收敛情况；图11和图12展示了MEWOA在部分函数上的搜索历史。 3. 稳定性箱线图：图13 - 图16展示了不同维度下MEWOA与其他算法的稳定性对比。 4. 工程设计问题示意图：图18 - 图21分别展示了齿轮传动设计问题、压力容器设计问题、悬臂梁设计问题和三杆桁架设计问题的示意图。

二、QIGJO

1. Q-learning improved golden jackal optimization algorithm and its application to reliability optimization of hydraulic system（SCI二区，OA）

2. 改进策略详解

为提升金豺优化算法（GJO）性能，使其在全局搜索和收敛精度等方面表现更优，本文提出了基于Q学习的改进金豺优化算法（QIGJO），具体改进策略如下：

引入五种更新机制：针对GJO算法易陷入局部最优解的问题，提出五种更新机制，从不同角度优化算法的搜索能力，提升其性能。
- 快速收敛机制（FC）：公式为 $X_{i,j}(t + 1) = rand*X_{i,j}(t)+rand(rands*X_{best,j}(t)-X_{i,j}(t))$ 。其中， $X_{best,j}(t)$ 代表全局最优解， $r an d$ 是介于 $0$ 到 $1$ 之间的随机数， $r an d s$ 是介于 $- 1$ 到 $1$ 之间的随机数。该机制旨在加速算法收敛，但可能导致过早陷入局部最优，不过后续四种机制可平衡这一缺陷。
- 随机进化机制（RE）：借鉴差分进化算法，引入公式 $X_{i, j}(t + 1)=X_{r1, j}(t)+randn*(X_{r2, j}(t)-X_{r3, j}(t))$ 。这里 $X_{r1, j}$ 、 $X_{r2, j}$ 和 $X_{r3, j}$ 是从种群中随机选取的三个不同个体的第 $j$ 维， $r an d n$ 是正态分布随机因子。此机制通过随机选择个体，增强了信息交换和种群多样性，提高了算法跳出局部最优的可能性。
- 随机步长游走机制（RSSW）：公式为 $X_{i}(t + 1)=X_{M}(t)+rands*(ub - lb)+0.1*(lb + rand*(ub - lb))$ ，其中 $r an d s$ 是 $- 1$ 到 $1$ 之间的随机数， $u b$ 和 $l b$ 分别表示上限和下限。当 $X_{M}$ 陷入局部最优时，该机制为其赋予随机步长，使当前位置能随机游走，帮助算法跳出局部最优解。
- 随机质心反向学习机制（RCOBL）：基于质心反向计算（COBC）进行改进，定义公式为 $M_{j}=\frac{X_{1, j}+...+X_{n, j}}{n}$ ， $Y_{i, j}=2 * rand * M_{j}-X_{i, j}$ （ $\leq j \leq d$ ）。通过引入随机数，进一步扩展了种群探索范围，提升了反向解的搜索能力。
- 质心种群学习机制（CPL）：参考粒子群优化算法（PSO）的种群学习机制，公式为 $X_{i, j}(t + 1)=X_{i, j}(t)+rand *(M_{j}(t)-X_{i, j}(t))$ ，其中 $M_{j}(t)$ 是迭代 $t$ 时种群质心的第 $j$ 维。与PSO不同，CPL仅从种群质心学习，利用种群质心的动态变化，在迭代后期仍能拓展搜索空间，增强跳出局部最优的能力。
双种群Q学习协作机制：利用Q学习帮助个体智能选择更新策略，并提出双种群协作机制，提高算法的优化性能。
- 状态和行动设置：将上述五种更新机制设定为五种状态和五种行动，每个个体都拥有独立的Q表。在每次迭代中，个体依据当前状态（即当前更新策略），借助Q表中的信息选择后续行动，并通过持续训练Q表，实现更新策略的智能选择。
- 个体奖励设置：由于本文的优化问题均为最小化问题，当Q学习选择的更新策略使猎物更新位置后的适应度值低于之前位置时，给予正奖励；反之给予负奖励。奖励函数为 $reward=\begin{cases}1, & fitness(X_{learning }(t + 1))< fitness(X_{i}(t + 1)) \\ -1, & fitness(X_{learning }(t + 1)) \geq fitness(X_{i}(t + 1))\end{cases}$ 。
- 自由种群和贪婪种群：定义自由种群和贪婪种群。自由种群随机选择更新机制，贪婪种群依据贪婪因子 $\varepsilon$ 选择更新机制。贪婪因子 $\varepsilon$ 从 $0$ 到 $1$ 线性增加， $=\begin{cases}randomly select mechanism, & \varepsilon \leq r \\ greedily select mechanism, & \varepsilon>r\end{cases}$ ，其中 $r$ 是 $0$ 到 $1$ 之间的随机数。在自由种群中，学习率 $\alpha$ 和折扣因子 $\gamma$ 固定为 $0.9$ ；在贪婪种群中， $\alpha, \gamma=1 - 0.9 * t / T$ 。这样的设置使得算法在前期能充分训练Q表，后期能加速收敛。
- 种群动态排序策略：为促进自由种群和贪婪种群间的动态通信，提高种群多样性，提出该策略。每次迭代时，依据适应度值对种群中的个体重新排序，较优个体分配到贪婪种群，较差个体分配到自由种群，且两个种群个体数量相同，即 $=\begin{cases}greedy population, & rank_{i}<n / 2 \\ free population, & else\end{cases}$ ，其中 $rank_{i}$ 是第 $i$ 个个体的适应度排名， $n$ 是种群数量。在迭代过程中，两个种群不断交换个体，以更好地训练Q表，提高训练效率。
引入收敛因子 $E_{c}$ ：GJO算法中逃逸能量 $E$ 虽设计巧妙，但衰减速度慢影响收敛速度。为此引入收敛因子 $E_{c}$ ，其更新方式为 $E_{c}=\begin{cases}(2 * rand_{2}-1) * e^{-\frac{t}{T}}, & rand_{1}<0.5 \\ (2 * rand_{2}-1) * p * 10^{-10 * rand_{3}* \frac {t}{T}}, & rand_{1} \geq 0.5\end{cases}$ 。其中 $rand_{1}$ 、 $rand_{2}$ 、 $rand_{3}$ 是 $0$ 到 $1$ 之间的随机数， $t$ 是当前迭代次数， $T$ 是最大迭代次数， $p$ 取值为 $1.5$ 。同时，用 $E_{c}$ 替换GJO算法中的 $E$ 。
流程图

3. 工作量评估

工作内容	详情
提出QIGJO算法	1. 引入五种更新机制：快速收敛机制、随机进化机制、随机步长游走机制、随机质心反向学习机制、质心种群学习机制，丰富算法更新方式，提升其性能。 2. 采用Q - learning机制：利用Q - 学习训练信息，帮助猎物智能选择更新策略。 3. 提出双种群Q - 学习协作机制：设置自由种群和贪婪种群，通过种群动态排序增加信息交流，加快Q - 学习训练效率。 4. 引入收敛因子(E_{c})：改进GJO算法收敛性能，平衡算法探索与开发阶段
算法性能测试实验	1. 基准函数实验：选用23个基准函数，涵盖单峰、多峰和固定维数多峰函数。设置种群数量为30，最大迭代次数1000，每个函数运行30次。对比QIGJO与多种元启发式算法（如HLOA、AO等）及改进金豺优化算法（如IGJO、FROBLGJO等），从最优值、均值、标准差和P值评估算法收敛精度、全局搜索性能、稳定性和差异显著性。 2. CEC2022测试：使用CEC2022测试函数集，设置种群数100、维度10、最大迭代次数10000，各函数运行25次。与其他算法对比，以中位数评估算法整体性能，进行Wilcoxon秩和检验和Friedman检验验证算法差异显著性。 3. 经典工程优化问题实验：选取压力容器设计、拉伸弹簧设计、焊接梁设计三个经典工程问题，利用惩罚函数将约束优化问题转化为无约束优化问题。对比QIGJO与其他算法的优化变量和结果，评估其在实际工程问题中的性能
系统可靠性优化应用实验	1. 建立CM - TSdFT模型：针对混凝土泵车液压系统，引入脉冲函数和单位阶跃函数描述基本事件故障时间特性，定义输入 - 输出算法和动态门规则，建立考虑运行时间和冲击次数二维因素的可靠性优化模型。 2. 优化及结果分析：以组件选择为优化参数，设定目标函数和约束条件，利用QIGJO优化模型。对比QIGJO与其他算法的优化结果，通过箱线图和收敛曲线分析算法稳定性和收敛速度

三、QLGJO

1. An improved whale optimization algorithm based on multi-population evolution for global optimization and engineering design problems（SCI三区，非OA）

2. 改进策略详解

为提升金豺优化算法（GJO）在COVID - 19 CT图像分割中的性能，克服其易陷入局部最优等问题，本文提出基于强化学习的QLGJO算法，主要从以下三方面进行改进：

引入强化学习策略
- 构建强化学习框架：将种群个体视为强化学习智能体，搜索空间当作环境，状态(s)代表个体当前更新位置方案，动作(a)表示状态变化过程。个体有探索、开发和混合模式三种位置更新操作，依据学习经验自适应选择策略。设计(3×3)的Q表，个体依Q表选使Q值最大的动作获取最佳奖励。
- Q表更新公式：采用贝尔曼方程 $Q_{t + 1}(s_{t}, a_{t}) \leftarrow Q_{t}(s_{t}, a_{t})+\lambda\left[r_{t + 1}+\gamma \max \left(Q_{t}(s_{t + 1}, a)\right)-Q_{t}(s_{t}, a_{t})\right]$ 更新Q表。其中， $s_{t}$ 和 $s_{t + 1}$ 分别为当前和下一状态； $\lambda$ 是学习率， $\gamma$ 是折扣因子，取值均在 $0$ 到 $1$ 之间； $r_{t + 1}$ 是智能体依当前动作获得的奖励或惩罚； $Q_{t}(s_{t}, a_{t})$ 是当前状态下所选动作的Q值； $max (Q_{t}(s_{t}, a))$ 是当前状态下所有动作的最大Q值； $Q_{t + 1}(s_{t}, a_{t})$ 是下一状态的预估计Q值。
- 动态调整学习率：学习率 $\lambda$ 动态调整，公式为 $\lambda=\frac{\lambda_{initial }+\lambda_{final }}{2}-\frac{\lambda_{initial }-\lambda_{final }}{2} \cos \left(\pi\left(1-\frac{t}{T}\right)\right)$ ， $\lambda_{initial }$ 和 $\lambda_{final }$ 分别设为 $0.9$ 和 $0.1$ ， $t$ 是当前迭代次数， $T$ 是最大迭代次数。奖励参数 $r$ 由适应度决定，适应度提高时 $r = 1$ ，否则 $r = - 1$ 。
设计新的更新模式
- 协调探索与开发：引入强化学习协调探索和开发选择过程，继承原机制并提出混合模式。在混合模式下，种群分为两类，一类继续探索，另一类开始开发。同时设计变异机制更新个体位置，具体更新策略如下：
  - $\vec{Pos_{\alpha}}(t)=\frac{\vec{Pos_{1}}(t)+\vec{Pos_{2}}(t)}{2}$
  - $\vec{Pos_{\beta}}(t)=\vec{Pos_{r 1}}(t)+\vec{rand} \circ\left(\vec{Pos_{r 2}}(t)-\vec{Pos_{r 3}}(t)\right)$
  - $\vec{Pos_{k}}(t + 1)=\begin{cases}\vec{Pos_{\alpha}}(t), & \text{fitness}(\vec{Pos_{\alpha}}(t)) \geq \text{fitness}(\vec{Pos_{\beta}}(t)) \\\vec{Pos_{\beta}}(t), & \text{otherwise}\end{cases}$
    其中， $r$ 是 $0$ 到 $1$ 的随机数， $\vec{Pos _{\alpha}}(t)$ 是第 $t$ 次迭代时第 $k$ 个个体的更新位置， $\vec{Pos_{\beta}}(t)$ 是第 $t$ 次迭代时第 $k$ 个个体的变异位置， $\vec{rand}$ 是 $0$ 到 $1$ 的随机向量， $\vec{Pos _{r 1}}(t)$ 、 $\vec{Pos _{r 2}}(t)$ 和 $\vec{Pos _{r 3}}(t)$ 是三个随机个体。
  - $\vec{Pos_{1}}(t)=\begin{cases}\vec{Pos_{m}}(t)-\vec{E} \circ\left|\vec{Pos_{m}}(t)-\vec{R} L \circ \vec{Pos_{k}}(t)\right|, & r < 0.5 \\\vec{Pos_{m}}(t)-\vec{E} \circ\left|\vec{R L} \circ \vec{Pos_{m}}(t)-\vec{Pos_{k}}(t)\right|, & r \geq 0.5\end{cases}$
  - $\vec{Pos_{f m}}(t)=\begin{cases}\vec{Pos_{f m}}(t)-\vec{E} \circ\left|\vec{Pos_{f m}}(t)-\vec{R L} \circ \vec{Pos_{k}}(t)\right|, & r < 0.5 \\\vec{Pos_{f m}}(t)-\vec{E} \circ\left|\vec{R L} \circ \vec{Pos_{f m}}(t)-\vec{Pos_{k}}(t)\right|, & r \geq 0.5\end{cases}$
提出三种变异策略
- 探索后变异策略：探索操作后应用公式：
  - $\vec{Pos_{\alpha}}(t)=\frac{\vec{Pos_{1}}(t)+\vec{Pos_{2}}(t)}{2}$
  - $\vec{Pos_{\beta}}(t)=\vec{Pos_{r 1}}(t)+\vec{rand} \circ\left(\vec{Pos}_{c r 2}(t)-\vec{Pos}_{r 3}(t)\right)+\vec{rand} \circ\left(\vec{Pos_{r 4}}(t)-\vec{Pos_{r 5}}(t)\right)$
  - $\vec{Pos_{k}}(t + 1)=\begin{cases}\vec{Pos_{\alpha}}(t), & \text{fitness}(\vec{Pos_{\alpha}}(t)) \geq \text{fitness}(\vec{Pos_{\beta}}(t)) \\\vec{Pos_{\beta}}(t), & \text{otherwise}\end{cases}$
    此策略帮助种群探索更多搜索空间。
- 开发后变异策略：开发操作后应用公式：
  - $\vec{Pos_{\alpha}}(t)=\frac{\vec{Pos_{1}}(t)+\vec{Pos_{2}}(t)}{2}$
  - $\vec{Pos_{\beta}}(t)=\vec{Pos_{k}}(t)+\vec{rand} \circ\left(\vec{Pos_{r 2}}(t)-\vec{Pos_{r 3}}(t)\right)$
  - $\vec{Pos_{k}}(t + 1)=\begin{cases}\vec{Pos_{\alpha}}(t), & \text{fitness}(\vec{Pos_{\alpha}}(t)) \geq \text{fitness}(\vec{Pos_{\beta}}(t)) \\\vec{Pos_{\beta}}(t), & \text{otherwise}\end{cases}$
    该策略提高种群多样性，防止个体陷入局部最优。
流程图
对种群中的每个个体：
- 依据Q - 表选择当前状态 $s$ 下的最优行动 $a$ ，行动包括探索、混合和开发三种模式。
- 根据所选行动更新个体位置：
  - 若选择“探索”行动，依据公式 $\overline{Pos_{1}}(t)=\overline{Pos_{m}}(t)-\overline{E} \circ\left|P \overline{s}_{m}(t)-\overline{R L} \circ \overline{Pos_{k}}(t)\right|$ 、 $\vec{Pos_{2}}(t)=\vec{Pos_{f m}}(t)-\vec{E} \circ\left|\vec{Pos_{f m}}(t)-\vec{R L} \circ \vec{Pos_{k}}(t)\right|$ 、 $\vec{Pos_{k}}(t + 1)=\frac{\vec{Pos_{1}}(t)+\vec{Pos_{2}}(t)}{2}$ 更新种群。这里 $\overline{Pos_{1}}(t)$ 、 $\vec{Pos_{2}}(t)$ 是中间计算向量， $\overline{R L}$ 是基于列维飞行（Lévy flight）的 $n$ 维随机向量。
  - 若选择“混合”行动，依据公式 $\vec{Pos_{\alpha}}(t)=\frac{\vec{Pos_{1}}(t)+\vec{Pos_{2}}(t)}{2}$ 、 $\vec{Pos_{\beta}}(t)=\vec{Pos_{r1}}(t)+\vec{rand} \circ(\vec{Pos_{r2}}(t)-\vec{Pos_{r3}}(t))$ 、 $\vec{Pos_{k}}(t + 1)=\begin{cases}\vec{Pos_{\alpha}}(t), & fitness(\vec{Pos_{\alpha}}(t))\geq fitness(\vec{Pos_{\beta}}(t))\\\vec{Pos_{\beta}}(t), & otherwise\end{cases}$ 更新种群。其中 $\vec{Pos_{\alpha}}(t)$ 、 $\vec{Pos_{\beta}}(t)$ 是更新过程中的中间向量， $\vec{Pos_{r1}}(t)$ 、 $\vec{Pos_{r2}}(t)$ 、 $\vec{Pos_{r3}}(t)$ 是三个随机个体的位置向量。
  - 若选择“开发”行动，依据公式 $\overline{Pos_{1}}(t)=\overline{Pos_{m}}(t)-\overline{E} \circ \overline{R L} \circ \overline{Pos}_{m}(t)-\overline{Pos}_{k}(t)|$ 、 $\vec{Pos_{2}}(t)=\vec{Pos_{f m}}(t)-\vec{E} \circ\left|\vec{R L} \circ \vec{Pos_{f m}}(t)-\vec{Pos_{k}}(t)\right|$ 、 $\vec{Pos_{k}}(t + 1)=\frac{\vec{Pos_{1}}(t)+\vec{Pos_{2}}(t)}{2}$ 更新种群。
- 根据公式更新个体的Q - 表。
- 更新下一个状态 $s$ 。

3. 工作量评估

工作内容	具体事项
算法改进	1. 提出基于强化学习（Q-Learning）的金豺优化算法QLGJO，将强化学习与金豺优化算法相结合，用于COVID-19 CT图像分割。 2. 设计新更新模式，引入混合模式，把种群分为两类分别进行探索和开发，同时设计变异机制更新个体位置。 3. 提出三种变异策略，两种用于探索和开发策略之后以提升算法性能，一种用于混合模式。
实验设置	1. 选择GJO、IGJO、INFO、MVO、DE、PSO这6种先进元启发式算法作为对比算法。 2. 设定实验环境，所有算法在相同环境下独立运行21次。IEEE CEC2022基准函数实验中，迭代次数设为5000，种群大小固定为120；COVID-19 CT图像分割实验中，迭代次数设为200，种群大小固定为60，各算法采用默认参数。
实验开展	1. 使用IEEE CEC2022基准函数测试QLGJO算法性能，通过计算均值、中位数、标准差等定量指标，绘制箱线图和收敛曲线进行定性分析，并采用Friedman平均秩检验对综合性能排名。 2. 利用COVID-19 CT图像进行分割实验，以Otsu方法为目标函数，采用PSNR、SSIM和FSIM作为评估指标，对不同阈值（8、12、16、20）下的图像分割结果进行分析，计算各算法在这些指标上的均值和标准差，并用Friedman平均秩检验综合排名，同时通过Wilcoxon秩和检验验证QLGJO在使用Otsu方法进行多阈值分割时的性能优势。