LLM预训练和对真实世界推理机制的复现效果

AMiner学术搜索和科技情报挖掘

于 2024-08-20 11:00:00 发布

阅读量681

点赞数 7

文章标签：人工智能语言模型 LLM 自然语言处理大模型

本文链接：https://blog.csdn.net/AI_Conf/article/details/141321813

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain?f=cs

1.LLM Stability: A detailed analysis with some surprises

本研究探讨了大型语言模型（LLM）的稳定性问题，发现即使是针对完全相同的输入和确定性超参数，LLM输出的结果也会出现变化。这种现象是人工智能领域以往未曾遇到过的，因为以往即使在输入数据超出训练数据的情况下，AI的输出结果也是确定性的。研究指出，尽管大部分LLM从业者已对此问题有所了解，但目前尚未有任何工作尝试去量化LLM的稳定性。作者表示，这可能是因为这样的研究既无聊又难以执行和撰写，但他们的研究还是揭示了几个意外的发现。具体而言，评估的LLM在原始输出层面很少是确定性的，在解析后的输出/答案层面虽然更确定，但在相同数据输入的5次重运行中也很少达到100%的稳定性。此外，LLM的准确性变异并不呈正态分布，且稳定性会根据任务的不同而有所变化。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66b96bb301d2a3fbfcb64752/?f=cs

2.Amuro Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

这篇研究探讨了大规模语言模型在大规模文本语料库上预训练以及在微调阶段与人类偏好或下游任务对齐的预训练-微调范式。通过微调多个中间预训练模型检查点，研究揭示了预训练和微调之间的关系。研究发现：（1）持续预训练以一种潜在的方式改进模型，这种改进在微调之后揭示；（2）在额外微调下，模型在预训练阶段表现不佳的数据集获得的能力远超过表现好的数据集；（3）尽管通过监督微调，模型的表现显著提升，但它可能会忘记之前已知的领域知识和未在微调阶段看到任务；（4）在监督微调后，模型对评估提示高度敏感，但通过更多的预训练可以减轻这种敏感性。在这里插入图片描述
链接：https://www.aminer.cn/pub/66bc137201d2a3fbfc596412/?f=cs

3.Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models

本文探讨了大型语言模型（LLM）在解决复杂问题时是否具备实际推理能力。研究聚焦于两个关键的概率概念：必要概率（PN）和充分概率（PS），它们对于将原因与其效果联系起来至关重要。文章提出一个旨在评估LLM在复制实际推理机制方面效果的理论与实践框架，通过将LLM视为通过自然语言界面处理信息的抽象机器，研究在何种条件下可以计算出PN和PS的合适近似值。通过一系列数学示例，本研究在了解LLM何时能够进行推理方面取得了重要进展。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66beb34701d2a3fbfca76f8f/?f=cs

4.Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

本文综述了模型合并技术在机器学习领域中的高效赋能方法，该技术无需收集原始训练数据，也无需昂贵的计算资源。随着模型合并技术在各个领域的普及，全面理解现有的模型合并技术变得至关重要。然而，目前文献中关于系统而彻底的回顾还存在显著差距。本综述提供了模型合并方法和理论的全面概述，以及在各种领域和设置中的应用，以及未来的研究方向。具体来说，我们首先提出了一种新的分类方法，全面讨论现有的模型合并技术。其次，我们讨论了模型合并技术在大型语言模型、多模态大型语言模型和10多个机器学习子领域中的应用，包括持续学习、多任务学习和少样本学习等。最后，我们强调了模型合并技术 remaining 的挑战，并讨论了未来的研究方向。关于模型合并的论文的详细列表可以在https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications中找到。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66bd652001d2a3fbfc1f3b42/?f=cs

5.NL2OR: Solve Complex Operations Research Problems Using Natural Language Inputs

本文提出了一种创新方法，利用大型语言模型（LLM）的最新进展，从使用自然语言表达的非专家用户查询创建和编辑运筹学（OR）解决方案。这一方法降低了运筹学领域专业知识的需求和问题的制定时间。文章介绍了一个端到端的管道，名为NL2OR，它能从自然语言输入生成运筹学问题的解决方案，并分享了在几个重要的运筹学问题上进行实验的结果。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8ced/?f=cs