FocusLLM: 通过并行解码扩展LLM上下文

AMiner学术搜索和科技情报挖掘

于 2024-08-27 11:00:00 发布

阅读量1.6k

点赞数 43

文章标签： LLM 语言模型大模型人工智能自然语言处理

本文链接：https://blog.csdn.net/AI_Conf/article/details/141470986

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain?f=cs

1.StructuredRAG: JSON Response Formatting with Large Language Models

本文介绍了StructuredRAG，一个用于评估大型语言模型（LLM）遵循响应格式指令能力的六个任务基准。研究了两项最先进的LLM，Gemini 1.5 Pro和Llama 3 8B-instruct，并采用两种不同的提示策略进行评估，分别是f-String和Follow the Format (FF)提示。通过24个实验发现，平均成功率为82.55%，性能在任务、模型和提示策略之间存在高方差，成功率介于0到100%。研究还发现，任务复杂性对性能有显著影响，列表或复合对象输出的任务更具挑战性。研究结果强调了进一步研究改进LLM中结构化输出生成的可靠性和一致性的需要。实验代码和结果已在github.com/weaviate/structured-rag开源。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66c69ca901d2a3fbfcf868cf/?f=cs

2.FocusLLM: Scaling LLM’s Context by Parallel Decoding

本文介绍了一种新的框架FocusLLM，该框架能够扩展任何仅解码的LLM（大型语言模型）的上下文长度，使其能够从非常长的序列中关注相关的信息。FocusLLM通过根据模型的原始上下文长度将长文本输入划分为块来处理，这样可以减轻注意力分散的问题。然后，它将局部上下文附加到每个块中，作为提示，基于一种新颖的并行解码机制，从每个块中提取关键信息，并最终将这些提取的信息整合到局部上下文中。FocusLLM在训练效率和灵活性方面表现突出：与以前的方法相比，即使在处理扩展的长文本，甚至达到400K令牌时，经过8K输入长度的训练，FocusLLM也表现出了卓越的性能，并保持了强大的语言建模能力。该框架的代码可在https://github.com/leezythu/FocusLLM获取。在这里插入图片描述
链接：https://www.aminer.cn/pub/66c69e9201d2a3fbfcffa77a/?f=cs

3.LLM Pruning and Distillation in Practice: The Minitron Approach

本文详细报告了如何通过剪枝和蒸馏方法将Llama 3.1 8B和Mistral NeMo 12B模型压缩至4B和8B参数，分别采用了两种不同的剪枝策略：深度剪枝和联合隐藏层/注意力/多层感知器（宽度）剪枝，并在LM Evaluation Harness的常见基准上评估了结果。之后，使用NeMo Aligner对模型进行对齐，并在指令调优版本上进行测试。这种方法成功从Llama 3.1 8B产生了性能出色的4B模型，以及从Mistral NeMo 12B产生了 Mistral-NeMo-Minitron-8B (MN-Minitron-8B) 模型。研究发现，在没有原始数据的情况下，在蒸馏数据集上稍微微调教师模型是有益的。本文在Hugging Face上开源了基础模型权重，并采用了宽松的许可协议。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66c69eed01d2a3fbfc01687b/?f=cs

4.MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models

本文介绍了一种针对大规模语言模型（LLM）的混合精度自动回归并行推理方法，简称MARLIN。随着LLM推理在机器学习应用中成为一个重要的计算负载，权重量化已成为在GPU上高效部署的标准技术。量化不仅减少了模型大小，还通过减少内存移动，在单用户推理中显著提高了速度，而对准确性的影响很小。然而，尚不清楚在批量设置中，是否有办法在支持多个并行客户端的同时实现加速。文章通过介绍混合精度自动回归线性核（MARLIN）的设计，解决了这个问题。具体来说，当模型的权重通过量化压缩到每个元素4位时，MARLIN显示批量大小可以达到16-32，并且接近最大（4倍）的量化加速，更大的批量大小可以达到64-128，并且加速程度逐渐下降但仍然显著。MARLIN通过异步内存访问、复杂的任务调度和流水线技术，以及定制的量化支持实现了这一点。实验表明，在不同场景下，MARLIN在单个LLM层上的近最优性能，当与流行的vLLM服务引擎结合时，也可以导致端到端的LLM推理加速（高达2.8倍）。最后，MARLIN可以扩展到进一步的压缩技术，如NVIDIA的2:4稀疏性，从而带来额外的加速。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66c69e9401d2a3fbfcffb50f/?f=cs

5.Meta Knowledge for Retrieval Augmented Large Language Models

本文介绍了一种用于增强大型语言模型（LLM）的新技术——检索增强生成（RAG），该技术可以在不改变模型参数的情况下，为模型提供上下文相关、时间关键或领域特定的信息。然而，构建能够有效合成来自大量多样文档的RAG系统仍面临重大挑战。我们提出了一种新颖的数据中心RAG工作流程，将传统的检索-然后-阅读系统转变为更先进的准备-然后-重写-然后-检索-然后-阅读框架，以实现对知识库的更高领域专家水平的理解。我们的方法依赖于为每个文档生成元数据和合成的问题与答案（QA），并引入了基于元数据的文档簇的新概念——元知识摘要（MK摘要）。所提出的创新可以实现个性化的用户查询增强和深入的信息检索。我们的研究有两个重要贡献：使用LLM作为评估器并采用新的比较性能指标，我们证明（1）使用带有合成问题匹配的增强查询显著优于传统的依赖文档分块的RAG管道（p < 0.01），（2）元知识增强查询进一步显著提高了检索的准确性和召回率，以及最终答案的广度、深度、相关性和具体性。我们的方法成本效益高，使用Claude 3 Haiku对2000篇研究论文进行处理的成本不到20美元，并且可以适应任何对语言或嵌入模型进行微调的方法，以进一步增强端到端RAG管道的性能。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66c3fc7101d2a3fbfc6c6017/?f=cs