LLM作为操作系统｜代码预训练对语言模型影响

本文链接：https://blog.csdn.net/qingkahui24689/article/details/142129434

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读。虽然精力有限，无法每天都实时解读最新论文，但我相信有意思的研究应该及时分享。因此，我会在这里每日动态更新，之后再通过其他文章进行详细解读。下面是本期觉得比较有意思的论文：

1、LLM作为操作系统

论文标题：The Compressor-Retriever Architecture for Language Model OS

论文链接https://arxiv.org/abs/2409.01495

催生了将LLM作为操作系统(OS)的想法，其中LLM被用作OS的CPU，消化来自RAM（即上下文窗口）的数据，并调用外部工具作为函数。然而，要实现这一目标，需要解决几个关键挑战。

OS最重要的特征之一是它永远保持状态。如果允许，它可以存储所有数据、软件和运行日志，并在完成未来任务时检索它们。相比之下，到目前为止，我们与LLMs的大多数交互都是基于会话的，LLMs在不同会话之间基本上是无状态的。这种与LLMs基于会话的交互范式源于几个因素，其中之一是上下文窗口的限制。

最近的LLMs通常以约4K的窗口大小进行预训练（某些专有模型可能更高），可能进行长上下文微调至32K或更多。在推理时，有些模型可以扩展到数百万输入词元，如Gemini。尽管看起来很大，但仍远远不足以消化可能输入OS的上下文，使其具有有意义的状态：单个高清图像可能需要超过1K词元来表示；一次网络搜索可能返回10个网页，每个网页包含几千个词元；而仓库级的代码很容易达到数千行。

虽然基于会话的范式已经可以解决许多问题，但许多日常任务仍然需要访问长上下文。要开发一个能够协助处理现实世界任务并在整个过程中保持状态的LM OS，必须以终身的方式管理上下文信息（图1）。我们认为，缺乏一个管理上下文生命周期的原则性架构是从基于会话的范式转变为OS范式的主要障碍之一。

论文提出了一种管理终身上下文的新架构，即压缩器-检索器架构。论文设计这个架构时，使其保持模型无关性，并对基础模型结构的改动最小化。与现有的解决方案（如检索增强生成RAG）不同，这个架构不引入独立模块，只依赖基础模型的前向函数来压缩和检索上下文，使整个过程端到端可微分。

在实验中，在上下文学习（ICL）推理任务中验证了这个设计，论文的模型与理想设置相比显示出了令人鼓舞的性能。

2、代码预训练如何影响语言模型的任务表现？

论文标题：How Does Code Pretraining Affect Language Model Task Performance?

论文链接：https://arxiv.org/pdf/2409.04556

迄今为止，还没有研究能够通过控制语言和代码数据之间的关系来建立因果联系。论文正是要做这一点。

在两种不同的设置下，使用交织自然语言和代码的数据集对语言模型进行预训练：

1.竞争性设置：在预训练期间看到的总数据量保持不变。

2.附加性设置：语言数据的数量保持不变。

研究了预训练混合比例如何影响模型在以下方面的表现：

(a) BigBench基准测试中包含的多样化任务集合。

(b) 组合性，通过语义解析和句法转换的泛化准确性来衡量。

论文的结果显示：在预训练中增加代码比例可以提高模型在涉及结构化输出（如语义解析）和数学等组合性任务上的表现。相反，增加代码混合比例可能会损害模型在其他任务上的表现，包括需要对语言结构（如句法或形态）敏感的任务，以及衡量现实世界知识的任务。

3、基于大语言模型的软件工程agent综述

论文标题：Large Language Model-Based Agents for Software Engineering: A Survey

论文链接：https://arxiv.org/pdf/2409.02977

介绍最新的针对软件工程(SE)领域基于大语言模型(LLM)的agent的综述

基于LLM的智能代理在软件工程领域已展示出卓越的效果。这项调查涵盖了106篇论文，并从软件工程和智能代理两个角度对它们进行了总结。

这个简短的介绍突出了以下几点：

1.这是一项新的调查研究。

2.研究聚焦于软件工程领域中使用大语言模型的智能代理。

3.调查范围相当广泛，包含了106篇相关论文。

4.分析采用了双重视角：软件工程的角度和智能代理的角度。

5.暗示了基于LLM的智能代理在软件工程领域的应用已经取得了显著成效。

4、OneGen：大语言模型的高效一次性统一生成与检索

论文标题：OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

论文链接：https://arxiv.org/abs/2409.05152

论文呢介绍了一个名为OneGen的框架，使单个大语言模型（LLM）能够同时处理检索和生成任务。它通过以下方式实现这一目标：

1.在LLM的自回归生成过程中纳入检索令牌。

2.在统一的前向传播中同时完成这两项任务。

将生成和检索整合到同一上下文中带来了以下好处：

1.提高了检索性能。

2.不会对LLM的生成能力产生负面影响。

该研究声称：“OneGen是首个使LLM能够在生成过程中进行向量检索的框架。”

这项研究的主要创新点在于：

1.将通常分开处理的检索和生成任务整合到一个统一的过程中。

2.利用LLM的自回归特性来生成检索令牌，从而实现检索功能。

3.在不损害生成能力的前提下提升了检索性能。

4.为LLM在生成过程中进行实时向量检索开辟了新的可能性。

这种方法可能对提高LLM在各种任务中的性能和效率有重要影响，特别是在需要结合外部知识与生成能力的应用场景中。

5、LLMs能生成创新的研究想法吗？一项包含100多名NLP研究人员的大规模人类研究

论文标题：Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

论文链接：https://arxiv.org/pdf/2409.04109

在关于AI研究科学家的论文发表之后，一个重要的问题浮现出来：基于大语言模型（LLM）的智能代理是否真的能够产生新颖的研究想法。这项新的研究工作得出了一些有趣的发现：

1.新颖性：LLM生成的研究想法被评判为比人类专家的想法更加新颖，这一结果具有统计学意义（p < 0.05）。

2.灵活性：然而，在灵活性方面，LLM生成的想法评分略低于人类专家的想法。

3.多样性不足：研究发现，LLM代理在生成想法的过程中缺乏多样性。这可能意味着它们倾向于产生相似或重复的想法。

4.评估能力有限：LLM代理被认为不是可靠的评估者。这表明它们可能在判断自己或其他想法的质量方面存在局限性。

这些发现对于理解AI在科研领域的潜力和局限性都有重要意义。它们表明LLM在生成新颖想法方面有潜力，但在某些方面（如灵活性和多样性）仍需改进。同时，这也提醒我们在使用AI评估研究想法时需要谨慎。

在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。