2024最新丨分享10篇优秀论文,涉及大模型微调、Transformer、混合模型等热门话题

今天分享10篇最近刚刚公布的论文,涉及大模型微调、Transformer替换、LoRA、实体关系抽取、大模型幻觉等热门研究方向。其中关于将多个模型协同混合可媲美ChatGPT,论文特别有意思。

LLM后预训练方法

https://arxiv.org/pdf/2401.02415v1.pdf

人类通常能够在保留旧技能的条件下获取新增技能。然而,大型语言模型 (LLM) 的情况正好相反,例如从 LLaMA 到 CodeLLaMA。为此,「本文通过拓展Transformer模块,提出了一种新的 LLM 后预训练方法」。该方法仅使用新语料库来调整扩展块,高效且有效地提高模型的知识,而「不会发生灾难性遗忘」。

本文对代码和数学语料库进行了实验,产生了 LLaMA Pro-8.3B,这是一种从 LLaMA2-7B 初始化的多功能基础模型,在一般任务、编程和数学方面表现出色。LLaMA Pro 及其指令跟踪对应产品 (LLaMA Pro-Instruct) 在各种基准测试中实现了先进的性能,展示了相对于 LLaMA 系列中现有开放模型的优越性,以及作为智能代理进行推理和解决各种任务的巨大潜力。

大模型微调评测

https://arxiv.org/pdf/2401.04051v1.pdf

针对垂直应用场景,微调大模型是自然语言处理中的关键挑战。本文提出了实证分析,将两种有效的微调方法(BitFit和适配器模块)与标准全模型微调进行比较。在GLUE基准数据集(MRPC、COLA、STS-B)上进行的实验揭示了几个关键见解。

BitFit方法仅训练偏差项和任务头,可在不同数量的训练数据和时间限制下匹配完整的微调性能。即使只有30%的数据,它也表现出卓越的稳定性,优于中间数据级别的完全微调。适配器模块表现出高度的可变性,与默认模型相比增益不一致。

研究结果表明「BitFit能够很好的平衡模型性能和参数效率」。本文工作为模型微调提供了宝贵的视角,为有效适应大型预训练模型提供了可行的指导方针。

混合小模型 VS 大模型

https://arxiv.org/pdf/2401.02994.pdf

在对话式人工智能研究中,有一个明显的趋势是开发具有大量参数的模型,例如 ChatGPT 等模型。虽然这些模型往往会产生越来越好的聊天响应,但它们需要大量的计算资源和内存。基于以上背景,本文探讨了一个问题,即相对于单个大型模型,较小模型的组合能否协同实现堪比大模型的性能呢?

为此,本文引入了一种称为“混合”的方法,这是一种集成多个聊天人工智能的简单而有效的方法。经验证据表明,当特定的较小模型协同混合时,它们有可能超越或匹配更大模型的能力。例如,「仅集成三个中等大小的模型(6B/13B 参数)就可以与 ChatGPT(175B+ 参数)等更大的模型相媲美甚至超越其性能指标」

该假设使用 A/B 测试方法在 Chai 研究平台上经过了 30 天的严格测试。研究结果表明了“混合”策略作为一种可行方法的潜力,可以在不相应增加计算需求的情况下增强聊天人工智能的效率。

分布式注意力

https://arxiv.org/pdf/2401.02669.pdf

大模型 (LLM) 服务的动态自回归性质,以及需要支持超长上下文长度,需要灵活分配和释放大量资源。这给设计基于云的LLM服务系统带来了相当大的挑战,低效的管理可能导致性能下降或资源浪费。

为了应对这些挑战,本文引入了 「DistAttention,一种新颖的分布式注意力算法」,它将 KV Cache 分割成更小的、可管理的单元,从而实现注意力模块的分布式处理和存储。为此,本文提出了 DistKV-LLM,这是一种分布式 LLM 服务系统,可以动态管理 KV 缓存并有效地编排跨数据中心的所有可访问的 GPU 和 CPU 内存。这确保了云上的高性能LLM服务,可适应广泛的上下文长度。

在具有 32 个 NVIDIA A100 GPU(配置为 2 到 32 个实例)的云环境中进行验证,系统表现出 1.03-2.4 倍的端到端吞吐量改进,支持的上下文长度比当前最先进的 LLM 长 2-19 倍 服务系统,通过对 18 个上下文长度高达 1,900K 的数据集进行的广泛测试证明了这一点。

MoE-Mamba

https://arxiv.org/pdf/2401.04081.pdf

状态空间模型 (SSM) 已成为序列建模领域的有力竞争者,挑战了 Transformers 的主导地位。与此同时,Mixture of Experts (MoE) 显着改进了基于 Transformer 的LLM,包括最近最先进的开源模型。

本文提出为了释放 SSM 的扩展潜力,应该与 MoE 结合起来。并在 Mamba 上展示了这一点,这是一个最近基于 SSM 的模型,它实现了类似 Transformer 的卓越性能。本文模型 MoE-Mamba 的性能优于 Mamba 和 Transformer-MoE。特别是,「MoE-Mamba以减少 2.2倍的训练步骤达到与Mamba相同的性能」,同时保留了 Mamba 相对于 Transformer 的推理性能增益。

大模型微调方法

https://arxiv.org/pdf/2401.04679v1.pdf

本文研究了参数高效的微调(PEFT)方法,该方法可以在大型语言模型(LLM)的背景下在有限的计算和内存预算下提供良好的准确性。

为此,本文提出了「一种称为鲁棒适应(RoSA)的新 PEFT方法」,其灵感来自于鲁棒主成分分析(PCA),该方法在一组固定的预训练权重之上联合训练文本和高度稀疏组件,以有效地近似全精细的性能 调谐(FFT)解决方案。

在一系列具有挑战性的生成任务中,例如小学数学和 SQL 查询生成,这些任务需要微调才能获得良好的性能,在相同的参数预算下,RoSA 的性能优于 LoRA 和纯稀疏微调。

线性注意力

https://arxiv.org/pdf/2401.04658v1.pdf

线性注意力是一种有效的注意力机制,最近已经成为传统softmax注意力的一个有前途的替代方案。凭借其在线性计算复杂度中处理令牌的能力,线性注意力在理论上可以处理无限长度的序列而不牺牲速度,即,对于具有固定存储器消耗的各种序列长度保持恒定的训练速度。然而,由于累积求和(cumsum)的问题,目前的线性注意力算法无法在因果设置中证明其理论优势。

在本文中,「提出了Lightning Attention-2,这是第一个线性注意力实现」,使线性注意力能够实现其理论计算优势。为了实现这一点,我们利用平铺的思想,在线性注意力计算中分别处理块内和块间分量。

具体来说,利用传统的注意力计算机制的帧内块和应用线性注意力内核技巧的块间。通过向前和向后的程序采用平铺技术,以充分利用GPU硬件,「无论输入序列长度如何,都比其他注意力机制快得多」

LORA链

https://arxiv.org/pdf/2401.04151v1.pdf

微调是为特定任务定制预训练的大模型的主要方法。随着模型规模和任务多样性的扩大,参数高效的微调方法至关重要。最广泛使用的方法之一是低秩自适应(LoRA)及其变体。LoRA将权重更新编码为两个低秩矩阵的乘积。尽管LoRA具有优势,但在某些任务的泛化误差方面,它缺乏全参数微调。

本文引入了**「LoRA链(COLA),这是一种受Frank-Wolfe算法启发的迭代优化框架,可以弥合LoRA和全参数微调之间的差距,而不会产生额外的计算成本或内存开销」**。COLA采用剩余学习过程,将学习到的LoRA模块合并到预训练的语言模型参数中,并重新初始化新生成的LoRA模块。在各种模型(OPT和llama-2)和七个基准测试任务中,证明了COLA可以在不增加计算或内存成本的情况下始终优于LoRA。

实体关系提取

https://arxiv.org/pdf/2401.01326v1.pdf

在本文中,作者提出了一种**「从非结构化文本中提取联合实体和关系的新方法」**。与从左到右的标记级生成器的传统生成信息提取模型相比,该方法是基于跨度的。具体来说:

它生成一个线性化图,其中节点表示文本跨度,边表示关系三元组。本文方法采用Transformer编码器-解码器架构,具有跨度和关系类型的动态词汇表的指向机制。本文模型可以通过跨度表示捕获实体和关系的结构特征和边界,同时借助指向机制将生成的输出基于原始文本。在基准数据集的评估了本文方法的有效性。

大模型幻觉综述

https://arxiv.org/pdf/2401.01313v1.pdf

随着大型语言模型(LLM)在编写类似人类文本的能力方面不断进步,一个关键的挑战仍然是它们倾向于产生看似事实但毫无根据的内容。这种幻觉问题可以说是将这些强大LLM安全部署到影响人们生活的现实生产系统中的最大障碍。

在实际环境中广泛采用法学硕士的旅程在很大程度上依赖于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同,LLM在训练期间接触了大量在线文本数据。虽然这使他们能够表现出令人印象深刻的语言流畅性,但这也意味着他们能够从训练数据的偏差中推断出信息,误解不明确的提示,或者修改信息以表面上与输入保持一致。当我们依赖语言生成功能来实现敏感应用程序(例如总结医疗记录、财务分析报告等)时,这就变得非常令人担忧。

本文对超过32种为减轻LLM的幻觉而开发的技术进行了全面调查研究。其中值得注意的是检索增强生成、知识检索、CoNLI和 CoVe)。此外,本文引入了一个详细的分类法,根据各种参数对这些方法进行分类,例如数据集利用率、常见任务、反馈机制和检索器类型。这种分类有助于区分专门为解决LLM的幻觉问题而设计的不同方法。

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值