实时追踪科研动态丨首个像素级接地大型多模态模型，11.7精选论文

AMiner学术搜索和科技情报挖掘

于 2023-11-09 13:39:54 发布

阅读量193

点赞数

文章标签： llm 语言模型大模型人工智能计算机视觉 ai 论文

本文链接：https://blog.csdn.net/ai_conf/article/details/134309547

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年11月7日精选新论文列表：

1.Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

这篇论文介绍了一种名为Relax的编译器抽象，用于优化端到端的动态机器学习工作负载。特别是在新兴的大型语言模型中，动态形状计算已成为关键。这些模型的成功已经催生了在多样化的后端环境中部署它们的需求。Relax引入了一等符号形状注释，以跟踪程序中的全局动态形状计算。它还引入了一个跨层次抽象，将计算图、循环张量程序和库调用封装在一个表示中，以实现跨层次优化。作者使用所提出的方法构建了一个端到端的编译框架，用于优化动态形状模型。在大规模语言模型上的实验结果表明，Relax在各种平台上提供的性能与最先进的手动优化系统相当，并使新兴的动态模型能够部署到更广泛的环境中，包括手机、嵌入式设备和Web浏览器。

https://www.aminer.cn/pub/65499d88939a5f4082be98c0/?f=cs

2.S-LoRA: Serving Thousands of Concurrent LoRA Adapters

论文介绍了S-LoRA系统，用于大规模并行处理低秩适应（LoRA）适配器。在大型语言模型的部署中，通常采用“预训练-然后微调”的范式，而LoRA是一种参数高效的微调方法，通常用于将基础模型适应于多个任务，从而形成大量源自单个基础模型的LoRA适配器。作者观察到，这种范式在服务过程中为批量推理提供了显著的机会。为了利用这些机会，他们提出了S-LoRA系统，用于可扩展地服务许多LoRA适配器。S-LoRA将所有适配器存储在主内存中，并将当前运行的查询所使用的适配器fetch到GPU内存中。为了有效利用GPU内存并减少碎片化，S-LoRA提出了统一分页（Unified Paging）方法。统一分页使用统一的内存池来管理具有不同秩的动态适配器权重和具有不同序列长度的KV缓存张量。此外，S-LoRA还采用了新颖的张量并行策略和高度优化的自定义CUDA内核，用于LoRa计算的异构批次处理。这些特性使S-LoRA能够在单个GPU或多个GPU上以较小的开销服务数千个LoRA适配器。与最先进的库（如HuggingFace PEFT和vLLM）相比，S-LoRA可以将吞吐量提高多达4倍，并将服务的适配器数量增加几个数量级。因此，S-LoRA可实现大规模任务特定微调模型的可扩展服务，为大规模定制微调服务提供了潜力。

https://www.aminer.cn/pub/65499d90939a5f4082bea069/?f=cs

3.MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

论文介绍了一种名为 MFTCoder 的多任务微调框架，用于提高代码语言模型的性能。现有的代码语言模型通常通过针对特定下游任务或场景进行精细调整来提高其编码能力，但这种方法需要分别为每个任务进行单独的精细调整，需要大量的训练资源，并且在部署和维护方面存在挑战。此外，这些方法未能利用不同代码相关任务之间的固有联系。MFTCoder 采用了一种多任务学习框架，可以同时对多个任务进行并行微调。通过结合各种损失函数，有效地解决了多任务学习中的常见问题，如数据不平衡、难度等级不同和收敛速度不一致。实验结果表明，MFTCoder 的多任务微调方法在多个任务上均优于单一任务的微调方法以及混合任务集的微调方法。此外，MFTCoder 还具有高效的训练能力，包括高效的数据标记方式和 PEFT 微调，与传统微调方法相比，速度显著提高。MFTCoder 可以与主流开源代码语言模型（如 CodeLLama 和 Qwen）无缝集成。通过利用 CodeLLama 的基础模型，MFTCoder 对模型进行微调后，在 HumaneEval 基准测试中取得了 74.4% 的 pass@1 分数，超过了 GPT-4 的性能（67%，零射）。MFTCoder 已在 GitHub 上开源。

https://www.aminer.cn/pub/65499d88939a5f4082be9990/?f=cs

4.Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

论文提出了一种名为PASTA（Post-hoc Attention Steering Approach）的方法，用于在大语言模型（LLM）中引导模型关注用户指定的信息。现有的方法受限于仅处理普通文本，而不支持这种机制。PASTA通过识别一小部分注意力头并对它们进行精确的注意力重新加权，将模型注意力引导至用户指定的部分。与提示类似，PASTA在推理时应用，无需更改任何模型参数。实验证明，PASTA可以显著提高LLM遵循用户指令或从用户输入中整合新知识的能力，从而在各种任务中取得显著的性能提升，例如LLAMA-7B的平均准确率提高了22%。

https://www.aminer.cn/pub/65499d88939a5f4082be9966/?f=cs

5.Ultra-Long Sequence Distributed Transformer

论文提出了一种名为“长短期序列变压器（LSS Transformer）”的新型分布式训练方法，用于训练具有长序列的变压器模型。该方法将长序列分割成多个部分，并在GPU之间进行计算。每个GPU计算其部分的自注意力，然后使用融合通信和一种新颖的双梯度平均技术来避免聚合部分自注意力，从而最小化通信开销。在维基百科enwik8数据集上的性能比较显示，与最先进的Nvidia序列并行性相比，我们的方法在144个Nvidia V100 GPU上的实现速度提高了5.6倍，内存效率提高了10.2倍。此外，我们的算法在3456个GPU上实现了极端序列长度50,112的扩展，实现了161%的超线性并行效率和32 petapflops的吞吐量。

https://www.aminer.cn/pub/65499d88939a5f4082be99e1/?f=cs

6.Levels of AGI: Operationalizing Progress on the Path to AGI

论文提出了一种分类人工通用智能（AGI）模型及其前体能力与行为的方法。这个框架提出了AGI表现、普遍性和自主性的等级。作者希望这个框架能像自动驾驶等级一样有实用价值，为比较模型、评估风险和测量走向AGI道路上的进展提供共同语言。在发展这个框架时，作者分析了现有的AGI定义，并提炼出六条一个有用的AGI本体应满足的原则。这些原则包括关注能力而不是机制；分别评估普遍性和性能；定义通向AGI道路上的阶段，而不是关注终点。根据这些原则，作者提出了基于能力深度（性能）和广度（普遍性）的“AGI等级”，并思考了当前系统如何适应这个本体。他们讨论了未来基准的具有挑战性的要求，这些基准能定量衡量AGI模型的行为和能力与这些等级的对比。最后，他们讨论了这些AGI等级如何与部署考虑因素（如自主性和风险）相互作用，并强调了为负责任和安全的部署高度能力的人工智能系统选择人机交互范式的重要性。

https://www.aminer.cn/pub/65499d88939a5f4082be9a34/?f=cs

7.GLaMM: Pixel Grounding Large Multimodal Model

这篇论文介绍了GLaMM：首个像素级接地的大型多模态模型。多模态模型（LMMs）将大语言模型扩展到了视觉领域。之前的研究使用整体图像和文本提示来生成无grounded的文本响应，而最近的研究使用区域级LMM来生成视觉grounded的响应，但它们仅能一次指明一个对象类别，需要用户指定输入中的区域，或者无法提供密集的像素级对象grounding。在本文中，作者提出了第一个可以生成与相应对象分割掩码无缝交织的自然语言响应的模型——GLaMM。GLaMM不仅可以ground对话中出现的对象，而且足够灵活，可以接受文本和可选的视觉提示（感兴趣区域）作为输入。这使用户可以在文本和视觉领域的不同粒度上与模型进行交互。由于缺乏生成视觉grounded详细对话的标准基准，作者引入了一个全面的评估协议和精心策划的grounded对话。作者提出的Grounded对话生成（GCG）任务需要大规模密集grounded的自然场景概念。为此，作者提出了一个密集注释的Grounding-anything数据集（GranD），使用作者提出的自动化注释管道，包括750万唯一概念，这些概念在总计8.1亿个带有分割掩码的区域上进行grounded。除了GCG之外，GLaMM还在诸如指代表达分割、图像和区域级描述以及视觉语言对话等下游任务上表现出色。

https://www.aminer.cn/pub/65499e11939a5f4082beca5d/?f=cs

8.CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

这篇论文介绍了CoVLM（通过通信解码在大语言模型中组合视觉实体和关系）方法，该方法通过指导大型语言模型（LLM）显式地组合文本中的视觉实体和实体之间的关系，以及与视觉编码器和检测网络进行动态通信，以实现视觉语言通信解码。具体来说，作者首先设计了一组新的通信标记，用于动态通信视觉检测系统与语言系统之间。LLM根据视觉实体或关系生成一个通信标记，以告知检测网络提出与迄今为止生成的句子相关的区域。然后将提议的关注区域（ROI）反馈到LLM中，以便根据相关区域更好地生成语言。LLM通过通信标记能够组合视觉实体和关系。视觉到语言和语言到视觉的通信迭代进行，直到生成整个句子。该框架无缝地弥合了视觉感知和LLMs之间的差距，并在组合推理基准测试上大大优于以前的VLMs。同时，在诸如指代表达理解和视觉问答等传统视觉语言任务中也实现了最先进的性能。

https://www.aminer.cn/pub/65499e0e939a5f4082bec940/?f=cs

9.Ziya2: Data-centric Learning is All LLMs Need

这篇论文介绍了一种名为Ziya2的大型语言模型(LLM),该模型采用LLaMA2作为基础模型,并进一步在700亿个标记上进行预训练。该研究重点关注预训练技术和数据中心优化,以在不同的阶段增强Ziya2的学习过程。实验结果表明,Ziya2在多个基准测试中显著优于其他模型,特别是在与代表性的开源模型相比时具有令人鼓舞的结果。

https://www.aminer.cn/pub/65499deb939a5f4082bebeea/?f=cs

10.Co-training and Co-distillation for Quality Improvement and Compression of Language Models

这篇论文提出了一个名为CTCD（Co-Training and Co-Distillation）的新框架，旨在通过共同训练两个模型并相互传递知识来提高性能和推理速度。该框架基于两个重要发现：1）在共同训练过程中，从小模型向大模型传递知识可以提高大模型的性能；2）大模型性能的提升进一步提高了小模型的性能。CTCD框架具有很大的潜力，可以与现有技术（如架构设计或数据增强）相结合，取代单向知识蒸馏方法，实现进一步的性能提升。通过大量的消融实验，证明了CTCD的有效性，使用CTCD蒸馏的小模型在GLUE基准测试中比原来的大模型提高了1.66个百分点。

https://www.aminer.cn/pub/65499d88939a5f4082be9bb8/?f=cs

11.VR-NeRF: High-Fidelity Virtualized Walkable Spaces

论文介绍了一种名为VR-NeRF的端到端系统，该系统使用神经辐射场（NeRF）在虚拟现实中高保真地捕捉、建模和实时渲染可行走空间。为了实现这一目标，作者设计并构建了一个定制的多摄像头装置，以高保真度和前所未有的质量和密度，密集地捕捉可行走空间的多视角高动态范围图像。作者还将即时神经图形原语（INGP）扩展为一个新型的感知色彩空间，用于学习准确的高动态范围外观，并采用了一种高效的MIP映射机制，以实现抗锯齿的细节层次渲染，同时优化质量和速度之间的权衡。该系统能够在我们的定制演示机器上，以双2K×2K的全VR分辨率和36Hz的频率，高保真地渲染我们的神经辐射场模型。作者在我们的具有挑战性的高保真数据集上展示了我们的结果质量，并将我们的方法和数据集与现有的基线进行了比较。我们还在我们的项目网站上发布了我们的数据集。

https://www.aminer.cn/pub/65499d88939a5f4082be9a84/?f=cs

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实时追踪科研动态丨首个像素级接地大型多模态模型，11.7精选论文

之前的研究使用整体图像和文本提示来生成无grounded的文本响应，而最近的研究使用区域级LMM来生成视觉grounded的响应，但它们仅能一次指明一个对象类别，需要用户指定输入中的区域，或者无法提供密集的像素级对象grounding。他们讨论了未来基准的具有挑战性的要求，这些基准能定量衡量AGI模型的行为和能力与这些等级的对比。在大规模语言模型上的实验结果表明，Relax在各种平台上提供的性能与最先进的手动优化系统相当，并使新兴的动态模型能够部署到更广泛的环境中，包括手机、嵌入式设备和Web浏览器。
复制链接

扫一扫