大模型日报|今日必读的8篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.微软、国科大开启 1 bit 大模型时代

最近的研究(如 BitNet)正在为 1 位大型语言模型(LLMs)的新时代铺平道路。来自微软公司和中国科学院大学的研究团队提出了一种 1 bit 大模型变体——BitNet b1.58,其中 LLM 的每个参数(或权重)都是三进制 {-1, 0, 1}。在困惑度和最终任务性能方面,它与具有相同模型大小和训练 token 的全精度(即 FP16 或 BF16)Transformer LLM 相匹配,同时在延迟、内存、吞吐量和能耗方面更具成本效益。

更深远的意义在于,1 bit 大模型定义了一种新的 scaling law,也是训练新一代 LLM 的秘诀,这种 LLM 性能高、成本低。此外,它还实现了一种新的计算模式,并为设计针对 1 bit 大模型进行优化的特定硬件打开了大门。

论文链接:
https://arxiv.org/abs/2402.17764

2.清华、微软研究院提出Learning Law:语言模型的最优学习

为减少必要的训练步骤、实现卓越的性能,来自清华大学和微软研究院的研究团队探索了改进语言模型(LMs)学习的一般原则。

具体来说,研究团队提出了一种 LMs 最优学习理论。首先他们从 “LM 训练即无损压缩”的角度,提出了通过最大化数据压缩率来优化 LM 学习的目标。随后推导出一个名为“Learning Law”的定理,揭示了目标下最优学习过程的动态特性,并通过线性分类和真实世界语言建模任务的实验验证了该定理。最后,研究团队通过实证验证了 LMs 的最优学习本质上源于 LMs scaling law 中系数的改进,这为设计实用的学习加速方法带来了巨大的希望和意义。

论文链接:
https://arxiv.org/abs/2402.17759
项目地址:
https://github.com/microsoft/LMOps/tree/main/learning_law

3.当缩放遇到 LLM 微调:数据、模型和微调方法的影响

虽然大型语言模型(LLMs)经常采用微调来释放其在下游应用中的能力,但我们对不同微调方法的归纳偏差(尤其是缩放特性)的了解仍然有限。为了填补这一空白,Google DeepMind 和 Google Research 团队进行了系统实验,研究不同的缩放因子(包括 LLM 模型大小、预训练数据大小、新微调参数大小和微调数据大小)是否以及如何影响微调性能。

研究团队考虑了两种类型的微调——全模型微调(FMT)和参数高效微调(PET,包括提示微调和 LoRA),并探讨了它们在数据有限机制下的缩放行为,此时,LLM 模型的大小大大超过了微调数据的大小。

基于从 1B 到 16B 的两组预训练双语 LLMs,以及在双语机器翻译和多语摘要基准上的实验,研究发现:首先,LLM 微调遵循微调数据大小和每个其他缩放因子之间基于幂的乘法联合 scaling law;其次,LLM 微调更多受益于 LLM 模型缩放而非预训练数据缩放,而 PET 参数缩放通常无效;最佳微调方法高度依赖于任务和微调数据。

论文链接:
https://arxiv.org/abs/2402.17193

4.大模型的免训练长上下文扩展

当输入 tokens 的数量超过预训练长度时,大型语言模型(LLMs)处理和生成连贯文本的能力就会明显减弱。考虑到使用较长序列对大型模型进行微调的高昂开销,来自阿里巴巴、香港大学和复旦大学的研究团队提出了 Dual Chunk Attention(DCA),它能够使 Llama2 70B 无需持续训练即可支持超过 100k tokens 的上下文窗口。

通过将长序列的注意力计算分解为基于分块的模块,DCA 能够有效捕捉同一分块内(Intra-Chunk)和不同分块间(Inter-Chunk)tokens 的相对位置信息,并与 Flash Attention 无缝集成。除了令人印象深刻的外推能力外,DCA 在实际的长上下文任务中的表现与经过微调的模型相当,甚至更好。与专有模型相比,研究团队提出的免训练 70B 模型达到了 gpt-3.5-16k 性能的 94%,这表明它是一个可行的开源替代方案。

论文链接:
https://arxiv.org/abs/2402.17463
项目地址:
https://github.com/HKUNLP/ChunkLlama

5.Sum2Act:利用开放世界API增强大模型

人与动物的区别在于人类具有使用和创造工具的独特能力。工具使人类有能力克服生理上的限制,创造出伟大的文明。同样,让大型语言模型(LLMs)等基础模型具备学习外部工具使用的能力,可能是实现通用人工智能的关键一步。该领域以往的研究主要采用两种不同的方法来增强 LLMs 的工具调用能力。第一种方法强调构建用于模型微调的相关数据集。第二种方法则旨在通过上下文学习策略,充分利用 LLMs 固有的推理能力。

来自西安交通大学人工智能与机器人研究所、复旦大学和华为诺亚方舟实验室的研究团队提出了一种新颖的工具调用 pipeline——from Summary to action(Sum2Act),旨在控制大规模的真实世界 API。Sum2Act 模仿人类解决任务的过程,解决了现实生活中复杂的用户查询问题。在每一步都引导 LLMs 总结所取得的成果,并确定下一步行动方案。

在 ToolBench 基准上对 Sum2Act pipeline 进行的实证评估显示出显著的性能提升,超过了 ReAct 和 DFSDT 等成熟方法。这凸显了 Sum2Act 在增强 LLMs 以完成复杂的实际任务方面的有效性。

论文链接:
https://arxiv.org/abs/2402.18157

6.FinAgent:首个金融交易多模态基础智能体

金融交易是市场的重要组成部分,其信息来源包括新闻、价格和 K 线图等多模态信息,并包含量化交易和各种资产的高频交易等多种任务。虽然深度学习和强化学习等先进的人工智能技术在金融领域得到了广泛应用,但由于对多模态数据的处理不充分以及在各种任务中的泛化能力有限,它们在金融交易任务中的应用却经常面临挑战。

为此,来自南洋理工大学和浙江大学的研究团队推出了一个具有金融交易工具增强功能的多模态基础智能体——FinAgent。FinAgent 的市场智能模块可处理各种数据-数值、文本和视觉数据,从而准确分析金融市场。其独特的双层反映模块不仅能快速适应市场动态,还集成了多样化的记忆检索系统,增强了智能体从历史数据中学习和改进决策过程的能力。智能体对行动推理的重视促进了对其金融决策的信任。此外,FinAgent 还整合了成熟的交易策略和专家见解,确保其交易方法既以数据为导向,又植根于稳健的金融原则。

通过对包括股票和加密货币在内的 6 个金融数据集进行全面实验,FinAgent 在 6 个金融指标方面明显优于 9 个最先进的基线,平均收益提高了 36% 以上。特别是在一个数据集上实现了 92.27% 的回报率(相对改进 84.39%)。值得注意的是,FinAgent 是首个专为金融交易任务设计的高级多模态基础智能体。

论文链接:
https://arxiv.org/abs/2402.18485

7.超越自然语言:大模型自主选择格式,增强推理和沟通能力

自然语言(NL)长期以来一直是人类认知和交流的主要格式,在大型语言模型(LLMs)的开发和应用中也同样占据了核心地位。然而,除了 NL 之外,LLMs 在预训练过程中还使用了各种非 NL 格式,如代码和逻辑表达。

NL 作为 LLM 的最优格式的地位,尤其是在单一 LLM 推理和多智能体沟通方面,尚未得到深入研究。来自清华大学、腾讯和北京邮电大学的研究团队在一项研究中通过探索非 NL 格式在这些情况下的实用性,对默认使用 NL 的做法提出了挑战。

研究团队展示了允许 LLMs 在推理或沟通之前自主选择最合适的格式,会使不同 LLMs 的推理效率提高 3.3% 到 5.7%,并使多智能体沟通中的 token 使用量减少 72.7%,同时保持通信的有效性。综合分析进一步揭示,LLMs 可以从有限的任务指令中设计出一种格式,可以在不同的 LLMs 之间有效转移。有趣的是,由 LLMs 决定的结构化通信格式与已有的智能体通信语言表现出明显的相似性,这表明智能体沟通正朝着高效、结构化沟通的方向自然演进。

论文链接:
https://arxiv.org/abs/2402.18439
项目地址:
https://github.com/thunlp/AutoForm

8.将生成式AI应用于无人“机”群:挑战、应用和机遇

随着近年来人工智能(AI)和机器人技术的发展,无人车辆群在执行对人类来说困难且危险的服务方面展现出巨大潜力,受到了学术界和工业界的极大关注。在复杂多变的环境中学习和协调大量无人车辆的动作和行动,给传统的 AI 方法带来了巨大挑战。生成式人工智能(GAI)具有复杂数据特征提取、转换和增强的能力,在解决无人车辆群面临的这些挑战方面具有巨大潜力

该论文全面研究了 GAI 在无人车辆群中的应用、挑战和机遇。首先概述了无人车辆和无人车辆群,以及它们的使用案例和现有问题。然后深入介绍了各种 GAI 技术的背景及其在增强无人车群方面的能力。文中全面回顾了 GAI 在无人车辆群中的应用和挑战,进行了各种深入探讨和讨论。最后强调了无人车辆群中 GAI 的开放性问题,并讨论了潜在的研究方向。

论文链接:
https://arxiv.org/abs/2402.18062

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值