[论文分享] 使用大型语言模型的多目标启发式演化-CSDN博客

本文链接：https://blog.csdn.net/Python_cocola/article/details/146435818

摘要

基于大模型（Large Language Model, LLM）的自动算法设计是当前的研究热点之一。在 [1, 2] 中，我们将算法设计问题形式化为算法空间中的优化问题，并提出了一个基于大型语言模型的迭代搜索框架，以实现高性能算法的自动化设计。具体来说，该框架将每个算法视为搜索空间中的候选解，并利用LLM进行解的交叉和变异操作，从而生成新的解。基于这一思路，我们开发了一个具体框架 Evolution of Heuristics (「EoH」) [2]。与此类似，谷歌的Funsearch [3] 也在进化搜索的框架下，利用大模型自动搜索复杂方程，尽管其发表时间比我们的工作晚了几周 [1]。我们的方法与 Funsearch 的主要区别在于，我们同时进化算法的“思想”和“代码”，而 Funsearch 仅专注于代码的搜索。

尽管这些突破性研究推动了领域的快速发展，但现有方法仍存在显著局限性：当前研究主要关注所得算法的性能优化，而忽视了实际应用中同等重要的其他关键指标，如求解效率和代码可读性等。对此，本文将搜索启发式方法这一任务，建模为多目标优化问题，并考虑在生成解的性能之外考虑其他因素。由于搜索空间的复杂性，传统的多目标优化方法难以有效处理基于LLM的多目标的启发式方法搜索。本文提出了第一个基于LLM的多目标的启发式方法搜索框架，即多目标启发式演化 (Multi-objective Evolution of Heuristic,「MEoH」)，它利用预训练的LLM，生成一组非支配的启发式方法以满足多个设计标准。本文提出了一种新的支配-差异性机制 (dominance-dissimilarity mechanism) 用于种群管理和父代选择，该机制综合考虑了搜索空间中的代码差异和目标空间中的支配关系。MEoH在两个经典的组合优化问题上进行验证：在线装箱问题 (online Bin Packing Problem, online BPP) 和旅行商问题 (Traveling Salesman Problem, TSP)。结果表明，MEoH在单次运行中会自动生成各种精英启发式方法，提供比现有方法更多的权衡选项，并成功实现了有竞争力的或更佳的性能，同时将求解效率提高了10倍。

研究背景

启发式方法被广泛应用于求解众多领域中的优化问题。与精确方法相比，启发式方法可以在较短的时间内提供次优解，并且可以用来解决带有众多约束的复杂问题。然而，设计高效的启发式方法需要专家知识以及人为反复试错，非常困难。

过去，许多自动启发式设计方法被提出。包括自动启发式参数配置，自动启发式方法选择，和自动启发式方法合成。这些方法虽然可以成功地设计新的启发式方法，但是这些方法仍然极大程度上依赖人类专家设计的算法组件。

近年来，LLM被证明具有优秀的辅助算法设计能力。许多工作将LLM与演化计算相结合，进行自动启发式方法设计。在极少人为设计和模型训练的情况下，这些设计出的启发式方法具有优秀性能。然而，现有的基于LLM的演化启发式搜索方法只优化单个目标，即生成解的性能。而其他重要的启发式方法设计规则，如复杂度和可读性等在实际中至关重要的因素则被忽略。虽然一些工作尝试通过简单地将多个目标组合成为单个目标来进行优化，然而多个目标彼此冲突的天然特性导致很难找到一个启发式方法可以同时满足所有目标的需求。而在单次运行中搜索一组非支配启发式的方法还尚未被探索。

本文将搜索启发式方法这一任务，建模为多目标优化问题。并首次提出基于LLM的多目标的启发式方法搜索框架，即多目标启发式演化 (Multi-objective Evolution of Heuristic, MEoH)。该框架可以在单次运行中搜索得到一组非支配的启发式方法，主要贡献如下：

提出了一个基于 LLM 的自动启发式设计框架，从多目标优化的角度考虑启发式设计。
提出了一种支配-差异性机制，通过考虑目标空间中的支配关系和搜索空间中启发式方法之间的差异性来增强种群多样性并提高搜索效率。
在旅行商问题和在线装箱问题两个经典优化问题上证明了其性能。

方法介绍

MEoH集成了LLM和多目标进化方法 (Multi-objective Evolutionary Algorithm, MOEA) 。如Algorithm 1所示，MEoH从种群初始化开始，并使用MOEA逐步改进种群，直到满足终止条件，以获得一组代表多个目标之间权衡的非支配启发式方法。在每次迭代中，MEoH使用搜索运算符生成子代。这些运算符使用给定的提示，根据从种群中选择的父代，通过LLM创建子代。之后新的子代被添加到种群中，并利用种群管理来更新种群以保持其规模，并保持种群的多样性和收敛性。在父代选择和种群管理中都使用了支配-差异性机制。

支配-差异性机制

传统的MOEA和基于LLM的单目标启发式设计方法缺乏有效的多样性维护策略来进行多目标自动启发式方法设计。为了解决这个问题，本文提出了一种支配-差异性机制，该机制同时考虑目标空间中的支配关系和搜索空间中的启发式方法差异性。

目标空间中的支配关系：在目标空间中，统计每对启发式方法之间的帕累托支配关系，这在MOEA中被广泛使用。

搜索空间中的差异性：在搜索空间中，每个启发式方法包括其自然语言描述和对应Python代码实现。本文计算代码段之间的差异性。值得注意的是，有多种技术可用于此目的，本文选择使用广泛采用的抽象语法树 (Abstract Syntax Tree，AST) 进行相似度计算。AST相似度值的范围是0到1，0表示两个代码段完全不相似，1表示代码段完全相同。这种定量方法可以评估代码段之间的结构相似性，从而有助于根据代码实现对启发式方法进行比较和评估。

如图所示，为了确定种群中每个启发式方法的支配-差异性分数，需要计算每对启发式方法之间的差异性（即负 AST 相似性）并将其存储在矩阵中。同时，在目标空间中，统计每对启发式方法之间的支配关系并将其作为掩码。具体而言，只考虑具有支配关系的启发式方法，而所有其他关系都被掩蔽。随后，按列累加掩蔽后的差异性矩阵，由此得出的支配-差异性分数向量。支配-差异性分数向量同时考虑了支配关系和个体多样性两个方面，以指导后续步骤中的父代选择和种群管理。

启发式方法生成

MEoH的初始种群由启发式方法组成。这些启发式方法可以利用给定的提示通过LLM生成。

而从当前种群中选择一组父代启发式方法是生成子代的第一步。为了在启发式方法搜索过程中同时考虑支配关系和个体多样性，支配-差异性分数用于指导父代选择的概率。支配-差异性得分越高，被支配的可能性就越低，或者代码越独特，因此有更大的概率被选中。父代被选择的概率与其支配-差异性得分成正比。所选的父代启发式方法作为生成子代提示中的示例，用于指导LLM生成子代启发式方法。

种群管理

随着通过搜索操作新生成的子代被纳入种群，种群规模逐渐增加。种群管理则用以保持种群规模并有效更新种群。具体来说，根据支配-差异性分数对种群中的启发式方法进行排序，并删除分数最低的启发式方法，以确保只有最有优势的个体保留在种群中。通过采用这种策略，种群不断得到完善，以保存高质量和多样化的个体，提高进化过程的效率。

实验结果

本文针对在线装箱问题和旅行商问题，进行同时考虑最优间隙 (optimal gap) 和运行时间 (running time) 的启发式方法搜索。本文采用预训练的GPT3.5-turbo作为生成启发式方法的LLM。本文采用两种多目标优化中广泛使用的度量指标：超体积 (Hypervolume, HV) 和反世代距离 (Inverted Generational Distance, IGD) 。HV提供了在没有真实帕累托前沿的情况下对近似帕累托前沿的收敛性和多样性的评估。HV值越大，性能越好。 IGD测量生成的近似帕累托前沿相对于参考集的表现。本文中的参考集是从所有生成的启发式方法的并集得出的非支配集。更小的IGD值表明种群更接近参考集，具有更好的收敛性和多样性。

在线装箱问题

在在线装箱问题上比较MEoH和EoH

图 (a) 比较了MEoH和EoH获得的非支配启发式方法性能。结果表明：1) MEoH生成了一组对两个目标有不同权衡的启发式方法。相比之下，EoH只能找到覆盖目标空间中较小区域的相似启发式方法。2) 在最佳间隙接近时，MEoH获得的启发式方法只需更少的运行时间。图 (b) 和 © 分别显示了每代生成的启发式种群对应的HV和IGD曲线。由于EoH只考虑最佳间隙，因此HV和IGD会随着进化逐渐变差。相比之下，MEoH同时考虑最佳间隙和运行时间，实现了明显更佳的HV和IGD，证明了这组解能更好地权衡多个目标。此外，图 (d) 是平均支配-差异性分数。这些结果证明了MEoH的优势以及支配-差异性机制在维持种群多样性方面和提高搜索效率的有效性。

分布内外的在线装箱问题的结果

本文在具有不同规模和容量的各种问题实例上测试了FunSearch、EoH和MEoH生成的启发式方法。测试中的问题规模包括5k、10k和100k，箱子容量设置为100和500。对于分布内实例，即容器容量为100，这三个框架在最佳间隙方面均表现出良好的性能，并且MEoH生成的启发式方法的运行时间明显少于 FunSearch和EoH的，尤其是在更大的BPP100k实例上。MEoH生成的启发式方法与EoH的相比，性能相近，但运行时间却显著缩短。相比之下，对于分布外的情况，即箱子容量为500，FunSearch生成的启发式方法的最佳间隙急剧变差。另一方面，EoH和MEoH生成的启发式方法在这种场景中都表现出良好的性能。

旅行商问题

在旅行商问题上比较MEoH和EoH

图 (a) 为MEoH和EoH获得的非支配启发式方法性能。图 (b) 和 © 为MEoH和EoH针对旅行商问题生成的启发式方法种群的HV和IGD曲线。如图所示，MEoH收敛速度更快，并且在HV和IGD上都明显优于EoH。图 (d) 中是平均支配-差异性分数，MEoH也具有显著优势。

TSPLIB的统计结果

本文在TSPLIB中的部分实例上，对FunSearch、EoH和MEoH生成的启发式方法进行测试。表中显示了与已知最优解之间的最优间隙以及所需的运行时间。对于较小的有200个节点以下的实例，MEoH生成的启发式方法在最优间隙和运行时间方面均表现出色。对于较大的有201到1002个节点实例，MEoH生成的启发式方法在运行时间方面仍然表现出色，但在最优间隙方面稍逊于EoH。

与经典MOEA的对比实验

在在线装箱问题上与经典MOEA进行比较

在旅行商问题上与经典MOEA进行比较

本文还分析了支配-差异性机制对优化的影响，并与两个代表性的MOEA进行了比较：NSGA-II和 MOEA/D。MEoH在HV和IGD上表现最佳。此结果证明了支配-差异性机制在改进优化过程方面的有效性。

总结

本文开发了一种基于LLM的多目标自动启发式方法设计的新框架MEoH，并提出了一种支配-差异性机制，用于在离散和复杂的启发式空间中进行有效搜索。在两个广泛研究的组合优化问题上以优化启发式的最优间隙和运行时间为目标证明了MEoH。结果表明，MEoH 在生成多目标权衡的启发式方法时，优于现有的基于LLM的启发式设计方法（包括 FunSearch 和 EoH）。在最优间隙接近的情况下，效率可以大幅提高。此外，还通过消融实验验证了MEoH相较于经典MOEA在自动启发式方法设计上的优势，以及所提出的支配-差异性机制的有效性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述