前沿论文速递24.2.2

最新推荐文章于 2024-08-05 17:36:27 发布

ftsao

最新推荐文章于 2024-08-05 17:36:27 发布

阅读量968

点赞数 19

分类专栏：不定时前沿论文速递文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/qitazhang/article/details/135982481

版权

不定时前沿论文速递专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.北大 | 高效多模态学习的稀疏大规模视觉语言模型

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan

github：https://github.com/PKU-YuanGroup/MoE-LLaVA ★361

paper:https://arxiv.org/abs/2401.15947v1

Task: Vision-Language Models, Hallucination

摘要：对于大型视觉语言模型（LVLM），缩放模型可以有效提高性能。然而，扩展模型参数会显著增加训练和推断成本，因为计算中的每个标记都会激活所有模型参数。在这项工作中，我们提出了一种新颖的 LVLM 训练策略 MoE-tuning，它可以构建参数数量惊人但计算成本恒定的稀疏模型，并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。此外，我们还提出了 MoE-LLaVA 框架，这是一种基于 MoE 的稀疏 LVLM 架构。该框架独特地在部署过程中通过路由器仅激活前 k 个专家，使其余专家保持不活动状态。我们广泛的实验强调了 MoE-LLaVA 在视觉理解方面的出色能力及其减少模型输出中的幻觉的潜力。值得注意的是，MoE-LLaVA 仅具有 30 亿个稀疏激活参数，在各种视觉理解数据集上表现出与 LLaVA-1.5-7B 相当的性能，甚至在物体幻觉基准测试中超过了 LLaVA-1.5-13B。通过 MoE-LLaVA，我们的目标是为稀疏 LVLM 建立基线，并为未来开发更高效、更有效的多模态学习系统的研究提供有价值的见解。

2. 腾讯AILAB | 开放词汇目标检测YOLO-World

YOLO-World: Real-Time Open-Vocabulary Object Detection

Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan ·

github：https://github.com/ailab-cvc/yolo-world ★112

paper:https://arxiv.org/abs/2401.17270v1

Task: Instance Segmentation, Language Modelling , Object Detection, Open Vocabulary Object Detection

摘要：You Only Look Once (YOLO) 系列检测器已成为高效实用的工具。然而，它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一限制，我们引入了 YOLO-World，这是一种创新方法，通过视觉语言建模和大规模数据集的预训练来增强 YOLO 的开放词汇检测功能。具体来说，我们提出了一种新的可重新参数化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。我们的方法擅长以零样本的方式高效地检测各种物体。在具有挑战性的 LVIS 数据集上，YOLO-World 在 V100 上实现了 35.4 AP 和 52.0 FPS，在准确性和速度方面优于许多最先进的方法。此外，经过微调的 YOLO-World 在多个下游任务上实现了卓越的性能，包括对象检测和开放词汇实例分割。

3. 阿里 | 具有视觉感知的自主多模式移动设备代理

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang

github：https://github.com/x-plug/mobileagent ★178

paper：https://arxiv.org/abs/2401.16158v1

Task: Agent，LLM

摘要：基于多模式大语言模型（MLLM）的移动设备代理正在成为流行的应用程序。在本文中，我们介绍了 Mobile-Agent，一种自主的多模式移动设备代理。Mobile-Agent 首先利用视觉感知工具来准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文，它会自主规划和分解复杂的操作任务，并逐步导航移动应用程序进行操作。与以前依赖应用程序的 XML 文件或移动系统元数据的解决方案不同，Mobile-Agent 允许以视觉为中心的方式在不同的移动操作环境中提供更大的适应性，从而消除了特定于系统的定制的必要性。为了评估 Mobile-Agent 的性能，我们引入了 Mobile-Eval，这是评估移动设备操作的基准。基于Mobile-Eval，我们对Mobile-Agent进行了全面的评估。实验结果表明Mobile-Agent取得了显著的准确率和完成率。即使有挑战性的指令，例如多应用程序操作，Mobile-Agent 仍然可以完成要求。

4. 微软 | 通过删除行和列来压缩大型语言模型

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari do Nascimento, Torsten Hoefler, James Hensman ·

github：https://github.com/microsoft/transformercompression ★110

paper: https://arxiv.org/abs/2401.15024v1

Task: Vision-Language Models, Hallucination

摘要：大型语言模型已成为自然语言处理的基石，但它们的使用在计算和内存资源方面会带来巨大的成本。稀疏化提供了一种缓解这些资源限制的解决方案，最近的工作表明，经过训练的模型可以事后稀疏化。现有的稀疏化技术面临挑战，因为它们需要额外的数据结构，并且当前硬件提供的加速效果有限。在本文中，我们提出了 SliceGPT，这是一种新的训练后稀疏化方案，它将每个权重矩阵替换为更小的（稠密）矩阵，从而减少了网络的嵌入维数。通过大量的实验，我们表明 SliceGPT 可以删除 LLAMA2-70B、OPT 66B 和 Phi-2 模型高达 25% 的模型参数（包括嵌入），同时保持 99%、99% 和 90% 的零样本任务性能分别为稠密模型。我们的切片模型在更少的 GPU 上运行，并且运行速度更快，无需任何额外的代码优化：在 24GB 消费级 GPU 上，我们将 LLAMA2-70B 上的推理总计算量减少到密集模型的 64%；在 40GB A100 GPU 上，我们将其降低至 66%。我们提供了一种新的见解，即变压器网络中的计算不变性，这使得 SliceGPT 成为可能，我们希望它能够激发并实现未来减少预训练模型的内存和计算需求的途径。

微信公众号同步更新