#今日论文推荐#大型语言模型教会智能体进化，OpenAI这项研究揭示了二者的互补关系

最新推荐文章于 2024-07-20 19:29:54 发布

wwwsxn

最新推荐文章于 2024-07-20 19:29:54 发布

阅读量289

点赞数

分类专栏：深度学习文章标签：深度学习机器学习人工智能

原文链接：https://www.aminer.cn/research_report/62b280047cb68b460fd87efb?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐#大型语言模型教会智能体进化，OpenAI这项研究揭示了二者的互补关系

在一项最新的研究中，OpenAI 的研究者探讨了大型语言模型与进化计算之间的互补关系。大型语言模型的代码生成能力已足够影响智能体的进化，这一进展反过来也能增强大型语言模型的生成能力。
很难想象，让大型语言模型辅助一下智能体机器人，它就自己成精了......
深度学习和进化计算两种方法都适用于计算，都可以产生有用的发现和有意义的进展。不过，二者之间到底是相互竞争的模式，还是互补的模式？
在最近的一篇论文中，来自 OpenAI 的研究者探讨了第二种情况，即互补模式的可能性。他们研究了大语言模型 (LLM; [1,2]) 在基因编程 (GP; [3,4]) 和开放性 [5-7] 上的潜在意义，发现了二者间的协同作用。

特别是，这种新的大模型进化（ELM）方法中，在代码上经过训练的大型语言模型（LLM）可以提供智能的「变异」，从而显著促进更高效的变异算子，回避了此前许多存在的挑战性进化程序。有趣的是，ELM 的获益反过来也影响了深度学习：通过 LLM 生成的样本集最终可以在新的领域中构成新的训练集，然后微调 LLM 可以在新的领域中获得良好表现，这是一种全新的数据生成过程。此外，这种方法最终仅通过自己生成的数据增强了 LLM 的生成能力，从而在追求开放性方面开辟了新的机会。
近段时间，LLM 在自动化代码生成方面取得了一系列成果，这些模型从人类知识中获得引导，通过从非常大型的数据集中学习，来实现通用的编程能力。
事实上，这种自举（bootstrapping）的可能性和 GP 是相关的，毕竟 GP 实际上是一种生成式编程方法。虽然乍看起来， LLM 可能胜过或包含 GP，但实际上 GP 在搜索所针对的特定类别的程序远离 LLM 训练分布 (甚至完全缺乏) 的情况下仍然具有优势。在这种情况下，LLM 提供有限的依赖 (学习一个全新领域的 prompt 工程是很难的) ，而 GP 原则上可以在任何空间进化 (尽管在实践中，由于适应性上获得一致信号所需的变异量，一些空间可能是难以处理的)。
有趣的是，两者的最佳结合是很容易实现的：只要提示 LLM 产生变化，LLM 就可以作为一个高度复杂的变异算子嵌入到一个总体进化算法中。这样一来，无论是常规变异算子的进化还是 LLM 自身的进化，都不能产生任何接近解空间的结果，但是 LLM 与进化相结合可以将其相互引导到解空间的正确区域。
实际上，使用基于 LLM 扰动的程序进化正在弥合进化算法和那些在人类思想水平上运行的算法之间的鸿沟。也就是说，LLM 可以通过训练来估计人类是如何有意识地更改程序的，同时保持在多种功能之上。此外，这样的 LLM 可以进一步微调成功的变异的目的，进行自我改善，最终在一个新的技术上迭代增强 ELM 的性能。
简而言之，这篇论文的主要贡献包括：