FocusLLM: 通过并行解码扩展LLM上下文

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.StructuredRAG: JSON Response Formatting with Large Language Models

本文介绍了StructuredRAG,一个用于评估大型语言模型(LLM)遵循响应格式指令能力的六个任务基准。研究了两项最先进的LLM,Gemini 1.5 Pro和Llama 3 8B-instruct,并采用两种不同的提示策略进行评估,分别是f-String和Follow the Format (FF)提示。通过24个实验发现,平均成功率为82.55%,性能在任务、模型和提示策略之间存在高方差,成功率介于0到100%。研究还发现,任务复杂性对性能有显著影响,列表或复合对象输出的任务更具挑战性。研究结果强调了进一步研究改进LLM中结构化输出生成的可靠性和一致性的需要。实验代码和结果已在github.com/weaviate/structured-rag开源。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66c69ca901d2a3fbfcf868cf/?f=cs

2.FocusLLM: Scaling LLM’s Context by Parallel Decoding

本文介绍了一种新的框架FocusLLM,该框架能够扩展任何仅解码的LLM(大型语言模型)的上下文长度,使其能够从非常长的序列中关注相关的信息。FocusLLM通过根据模型的原始上下文长度将长文本输入划分为块来处理,这样可以减轻注意力分散的问题。然后,它将局部上下文附加到每个块中,作为提示,基于一种新颖的并行解码机制,从每个块中提取关键信息,并最终将这些提取的信息整合到局部上下文中。FocusLLM在训练效率和灵活性方面表现突出:与以前的方法相比,即使在处理扩展的长文本,甚至达到400K令牌时,经过8K输入长度的训练,FocusLLM也表现出了卓越的性能,并保持了强大的语言建模能力。该框架的代码可在https://github.com/leezythu/FocusLLM获取。在这里插入图片描述
链接:https://www.aminer.cn/pub/66c69e9201d2a3fbfcffa77a/?f=cs

3.LLM Pruning and Distillation in Practice: The Minitron Approach

本文详细报告了如何通过剪枝和蒸馏方法将Llama 3.1 8B和Mistral NeMo 12B模型压缩至4B和8B参数,分别采用了两种不同的剪枝策略:深度剪枝和联合隐藏层/注意力/多层感知器(宽度)剪枝,并在LM Evaluation Harness的常见基准上评估了结果。之后,使用NeMo Aligner对模型进行对齐,并在指令调优版本上进行测试。这种方法成功从Llama 3.1 8B产生了性能出色的4B模型,以及从Mistral NeMo 12B产生了 Mistral-NeMo-Minitron-8B (MN-Minitron-8B) 模型。研究发现,在没有原始数据的情况下,在蒸馏数据集上稍微微调教师模型是有益的。本文在Hugging Face上开源了基础模型权重,并采用了宽松的许可协议。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66c69eed01d2a3fbfc01687b/?f=cs

4.MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models

本文介绍了一种针对大规模语言模型(LLM)的混合精度自动回归并行推理方法,简称MARLIN。随着LLM推理在机器学习应用中成为一个重要的计算负载,权重量化已成为在GPU上高效部署的标准技术。量化不仅减少了模型大小,还通过减少内存移动,在单用户推理中显著提高了速度,而对准确性的影响很小。然而,尚不清楚在批量设置中,是否有办法在支持多个并行客户端的同时实现加速。文章通过介绍混合精度自动回归线性核(MARLIN)的设计,解决了这个问题。具体来说,当模型的权重通过量化压缩到每个元素4位时,MARLIN显示批量大小可以达到16-32,并且接近最大(4倍)的量化加速,更大的批量大小可以达到64-128,并且加速程度逐渐下降但仍然显著。MARLIN通过异步内存访问、复杂的任务调度和流水线技术,以及定制的量化支持实现了这一点。实验表明,在不同场景下,MARLIN在单个LLM层上的近最优性能,当与流行的vLLM服务引擎结合时,也可以导致端到端的LLM推理加速(高达2.8倍)。最后,MARLIN可以扩展到进一步的压缩技术,如NVIDIA的2:4稀疏性,从而带来额外的加速。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66c69e9401d2a3fbfcffb50f/?f=cs

5.Meta Knowledge for Retrieval Augmented Large Language Models

本文介绍了一种用于增强大型语言模型(LLM)的新技术——检索增强生成(RAG),该技术可以在不改变模型参数的情况下,为模型提供上下文相关、时间关键或领域特定的信息。然而,构建能够有效合成来自大量多样文档的RAG系统仍面临重大挑战。我们提出了一种新颖的数据中心RAG工作流程,将传统的检索-然后-阅读系统转变为更先进的准备-然后-重写-然后-检索-然后-阅读框架,以实现对知识库的更高领域专家水平的理解。我们的方法依赖于为每个文档生成元数据和合成的问题与答案(QA),并引入了基于元数据的文档簇的新概念——元知识摘要(MK摘要)。所提出的创新可以实现个性化的用户查询增强和深入的信息检索。我们的研究有两个重要贡献:使用LLM作为评估器并采用新的比较性能指标,我们证明(1)使用带有合成问题匹配的增强查询显著优于传统的依赖文档分块的RAG管道(p < 0.01),(2)元知识增强查询进一步显著提高了检索的准确性和召回率,以及最终答案的广度、深度、相关性和具体性。我们的方法成本效益高,使用Claude 3 Haiku对2000篇研究论文进行处理的成本不到20美元,并且可以适应任何对语言或嵌入模型进行微调的方法,以进一步增强端到端RAG管道的性能。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66c3fc7101d2a3fbfc6c6017/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值