LLM Guided Evolution - The Automation of Models Advancing Models

利用LLM指导代码修改和优化
LLM的主要作用包括:

  1. 代码修改与优化:LLM直接参与模型架构的修改和进化。它通过提示生成新代码,帮助模型进行变异和交叉。与传统的进化算法不同,LLM引入了更智能的、监督式的进化过程。
  2. 思维进化(EoT):LLM通过反思以前的变异结果,并基于这些结果提出改进,从而创建一个自我增强的反馈循环。这个过程不仅让LLM根据历史表现进行调整,还可以加快模型向最优解的收敛。
  3. 保持遗传多样性:LLM通过生成多样化的代码响应,帮助保持遗传算法中的多样性,避免进化过程中的早熟收敛问题。LLM能够根据不同的提示,探索更广泛的可能性,从而促进创新。
  4. 角色扮演技术(Character Role Play, CRP):LLM通过“角色扮演”的方式在进化中注入创造力和专业性。例如,它可以被提示扮演某种专家角色,来生成更加新颖或专业化的代码变异。

摘要

在机器学习领域,AutoML 等传统模型开发和自动化方法通常依赖于抽象层,例如基于树的或笛卡尔遗传编程。我们的研究引入了“Guided Evolution”(GE),这是一个通过LLM直接修改代码与这些方法不同的新框架.。GE利用llm进行更智能、有监督的进化过程、指导突变和交叉。我们独特的“Evolution of Thought”(EoT)技术通过使 LLM 能够反思并从先前突变的结果中学习来进一步增强 GE。这导致了一个自我维持的反馈循环,增强了模型演化的决策。GE通过利用llm从专家制作的提示中生成不同的响应并调节模型温度,保持遗传多样性,对进化算法至关重要。这不仅加快了进化过程,而且还为该过程注入了创造力和洞察力等专家。我们在进化ExquisiteNetV2模型中的应用证明了它的有效性:LLM驱动的GE自主产生了精度提高的变体,在不影响模型紧凑性的情况下,从92.52%增加到93.34%。这强调了llm加速传统模型设计管道的潜力,使模型能够自主进化和增强自己的设计。

相关概念

NAS:Neural Architecture Search

神经结构搜索(Neural Architecture Search,NAS) 是一项用于自动化发现神经网络架构的技术。其目标是通过自动搜索和优化,找到最优的神经网络结构,以实现更好的性能。NAS包括以下几种主要方法:

  1. RL
  2. 进化算法(Evolutionary Algorithms, EAs):借鉴生物进化的原理,利用变异和交叉过程来演化网络架构。进化算法的潜力在于它可以通过逐步调整架构,超越人工设计的模型。
  3. 代理模型优化(Surrogate Model-Based Optimization):不同于RL的试错方法,代理模型优化通过预测模型表现来估算不同架构的性能,从而更高效地在架构空间中进行搜索。
  4. 一键式架构搜索(One-Shot Architecture Search):这一方法训练一个超网络,涵盖了搜索空间中的所有可能架构。通过共享权重来显著减少计算需求,是一种新兴的NAS范式。

方法

Guided Evolution

  1. Initiating with ExquisiteNetV2 as the seed model
  2. Utilized Mixtral. This model demonstrates superior performance in code generation compared to competitors like Llama 2 70B, making it particularly effective for the precise and complex code modifications required in our Guided Evolutionary framework.
  3. 用LLM代替了传统的突变和交配操作(replaces conventional mutation and mating operations). Utilize “Character Role Play” (CRP) to enhance the creativity and unconventionality of guided mutations

EOT

EA框架中的内在反馈机制,allowing EA to adapt and respond to effective changes in the model architecture. 用EOT可以使LLM更好的理解,知道模型结构的进化in a more informed and targeted manner.

将ExquisiteNetV2 model分成小段,可以使LLM的能力更加精准。

3.1 Mating

To enhance genome mating efficiency, the GE framework employs a strategic selection process. (这里被分割是因为进化算法的交叉就是要先分分割片段)
The LLM’s task is to intelligently amalgamate these segments, aiming to either heighten accuracy or boost efficiency in the resultant genome.

3.2 Mutation

Mutation here involves the random selection of code segments, which are then augmented through LLM prompts.
Distinguishing features of our approach include the integration of “Character Role Play” and “Evolution of Thought” (EoT)

Character Role Play, CRP

利用LLM处理突变(mutation)过程中发现模型倾向于生成一个standard solution,可能是由于这些值在模型训练数据集中非常常见,导致模型倾向于生成类似的解决方案。
To solve this, implementing a method that 包含了非常规的提示,用于提示LLM远离生成 these typical solutions。
还介绍了“expert”。Namely, we incorporated a range of character personas for the LLM to adopt, each designed to induce different types and qualities of mutations

EOT

先介绍了一下Auto-CoT
我们的研究引入了EoT方法,该方法扩展了 Auto-CoT 和 Manual-CoT 的推理原则。相距什么集合EoT是它在引导GE框架内结合进化过程的反馈。在这个框架中,每一次继初次生成之后的变异都可以执行基本的大语言模型(LLM)变异,‘角色扮演’变异,或EoT(End of Token)变异。EoT 独特地采用 SPEA-2 精英选择算法从前一代中识别出高性能个体。然后,这些个体被用作后续突变中LLM的示例模型

在这篇论文中,思维进化(Evolution of Thought, EoT) 是一个关键的技术,旨在通过引导大型语言模型(LLM) 来反思和优化进化过程。EoT的主要功能包括:

  1. 反馈机制:EoT使LLM能够从以前的模型变异和优化中获取反馈。它通过分析高表现个体的代码与原始代码的差异,帮助LLM理解哪些变化带来了性能提升,从而在后续迭代中进行更有针对性的修改。
  2. 进化中的自我优化:EoT使LLM能够根据历史变异的结果反思并改进生成的代码。这一过程通过比较选择高性能的模型(基于SPEA-2精英选择算法),促使LLM不断学习哪些变异对模型表现有积极影响,逐渐优化模型架构.
  3. 加速收敛:通过引入这个反馈循环,EoT能够加速模型向最优解的收敛,减少随机变异带来的低效探索。它将“思考过程”融入模型进化,使模型进化更加智能化和高效。

3.3 整个进化过程

论文的3.3节,讨论了整个进化循环(Evolutionary Loop)的过程,重点介绍了如何通过大型语言模型(LLM)整合进化算法的核心部分,包括基因生成、变异、交配等步骤。以下是该部分的主要内容:

  1. 基因生成:论文中的基因是通过LLM驱动的变异在种子代码上生成的。该过程中,种子代码会进行变异,但不会包括“思维进化”(EoT)的变异,因为这种变异需要依赖之前的变更评价。
  2. 多目标评估:论文采用多目标评估策略,既考虑模型在验证集上的准确性,也考虑模型的参数数量。这种双目标策略确保进化算法能够在优化准确性和模型大小之间取得平衡。
  3. 精英主义(Elitism):在进化过程中使用SPEA-2算法来维持精英主义。这种方法能够保留表现最好的个体,同时保持种群的多样性。SPEA-2通过“精细化适应度分配”和“k近邻密度估计”方法,防止早熟收敛并增强探索能力。
  4. 交配和变异选择:采用NSGA-II算法进行选择,确保种群既有高质量的解决方案,也有足够的多样性。NSGA-II通过“快速非支配排序”和“拥挤距离”评估,平衡解决方案的优良性和多样性。
  5. 提示多样性和搜索空间扩展:通过使用不同的提示设计和调整LLM的温度参数,论文大大扩展了模型搜索空间,这有助于发现独特且有效的解决方案。
  6. 精英基因的保留:为了确保保留优良的解决方案,新个体只有在超越现有精英基因时才会替代精英个体。这种策略避免了搜索空间的盲目扩展,同时确保了最优解的保存。

3.4基准问题(Example Problem)

在这一部分,作者使用了CIFAR-10 数据集进行实验验证。CIFAR-10 是一个经典的图像分类数据集,包含60,000张32x32像素的彩色图像,分成10类。实验设计的主要原因是:

低分辨率图像为物体识别算法带来了挑战,测试模型的复杂性。
CIFAR-10 广泛用于机器学习领域,有许多高效的模型可作为基准,便于验证新方法的有效性。
作者选择了这个数据集,是因为它的复杂性足够挑战现有的模型设计方法,但同时计算成本仍在可控范围内。实验目的是通过使用LLM引导的进化框架优化神经架构设计,并通过CIFAR-10上的表现进行验证。

3.5与最先进技术的比较(State of the Art)

这一部分通过一个名为ExquisiteNetV2 的最先进(SOTA)模型作为种子模型,进行实验。作者选用了ExquisiteNetV2模型,因为它在参数数量上较为紧凑,同时包含丰富的块和层次结构,适合用于进化的环境。

实验中,模型的选择强调了低参数数量,目的是在有限的时间内进行彻底的实验,以确保每次演化过程的充分评估。研究发现,ExquisiteNetV2模型具备出色的模块化架构,适合通过LLM引导的进化框架进行优化。

Result

4.1 模型进化结果

GE框架通过对ExquisiteNetV2模型的自动演化,成功生成了多个变体模型,超越了原始模型的基准:

原始ExquisiteNetV2模型的准确率为92.52%,参数量为0.518230M。
演化生成的**“GE-Evolved-L”** 变体达到了93.34%的准确率,且参数量保持与原始模型一致。
“GE-Evolved-M” 变体在减少43.1%的参数量的同时,仍保持了
93.16%的高测试准确率。
此外,其他变体如
"GE-Evolved-S"
和 “GE-Evolved-T” 展示了显著的模型尺寸压缩,尽管其准确率有所下降(分别为88.83%和87.45%),但参数量大幅减少至0.119254M和0.039190M,显示了极大的紧凑性提升而没有显著的性能损失。

4.2消融实验

为了评估"思维进化"(Evolution of Thought, EoT)和"角色扮演"(Character Role Play, CRP)的影响,论文进行了消融实验:

结果表明,EoT和CRP的引入对进化过程有重要影响,特别是EoT加速了向最优解的收敛。
图6展示了在第9代时不同变体的帕累托前沿,显示了在保留精英基因的同时如何促进模型进化。

4.3 总体评估

GE框架不仅在准确性上显著提升了模型,还通过模型参数效率的提高展示了进化的优越性。实验结果证实了LLM引导的进化框架在自动化神经架构设计中的潜力,并为未来的研究方向提供了基础

  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值