AI前沿论文速递 24.01.24

最新推荐文章于 2024-09-10 16:09:06 发布

ftsao

最新推荐文章于 2024-09-10 16:09:06 发布

阅读量1k

点赞数 17

分类专栏：不定时前沿论文速递文章标签：笔记

本文链接：https://blog.csdn.net/qitazhang/article/details/135757087

版权

不定时前沿论文速递专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang

github：https://github.com/hustvl/vim ★ 709

paper:https://arxiv.org/abs/2401.09417v1

Task: Object Detection， Position ， Representation Learning， Semantic Segmentation

摘要：最近，具有高效硬件感知设计的状态空间模型（SSM），即 Mamba，在长序列建模方面表现出了巨大的潜力。纯粹基于 SSM 构建高效且通用的视觉主干是一个有吸引力的方向。然而，由于视觉数据的位置敏感性以及视觉理解的全局上下文的要求，表示视觉数据对于 SSM 来说是一个挑战。在本文中，我们证明视觉表示学习对自注意力的依赖是不必要的，并提出了一种具有双向 Mamba 块（Vim）的新通用视觉主干，它用位置嵌入标记图像序列并用双向压缩视觉表示状态空间模型。在 ImageNet 分类、COCO 对象检测和 ADE20k 语义分割任务上，与 DeiT 等成熟的视觉转换器相比，Vim 实现了更高的性能，同时还显着提高了计算和内存效率。例如，Vim 是 2.8×在分辨率为 1248 的图像上执行批量推理提取特征时，比 DeiT 更快并节省 86.8% GPU 内存×1248. 结果表明，Vim 能够克服对高分辨率图像执行 Transformer 式理解时的计算和内存限制，并且具有成为视觉基础模型的下一代骨干的巨大潜力。

2.DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines

Arnav Singhvi, Manish Shetty, Shangyin Tan, Christopher Potts, Koushik Sen, Matei Zaharia, Omar Khattab

github:https://github.com/stanfordnlp/dspy ★5011

paper:https://arxiv.org/abs/2312.13382v1

Task: Language Modelling , Prompt Engineering , Question Answering

摘要：将语言模型 (LM) 调用链接为可组合模块正在催生一种新的强大编程方式。然而，确保 LM 遵守重要的约束仍然是一个关键挑战，这一挑战通常通过启发式“即时工程”来解决。我们引入了 LM 断言，这是一种新的编程结构，用于表达 LM 应满足的计算约束。我们将我们的构造集成到最新的 LM DSPy 编程模型中，并提出新策略，允许 DSPy 将具有任意 LM 断言的程序编译成更可靠、更准确的系统。在 DSPy 中，LM 断言可以在编译时通过自动提示优化进行集成，和/或在推理时通过自动自我优化和回溯进行集成。我们报告了两个复杂问答 (QA) 的早期案例研究，其中 LM 程序必须迭代地多次检索信息，并合成带有引用的长格式答案。我们发现 LM 断言不仅可以提高对强加规则和指南的遵守程度，还可以提高下游任务绩效，使内在和外在收益分别高达 35.7% 和 13.3%。

3.VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan

github:https://github.com/ailab-cvc/videocrafter ★3489

paper: https://arxiv.org/abs/2401.09047v1

Task: Text-to-Video Generation, Video Generation

摘要：文本到视频生成旨在根据给定的提示生成视频。最近，一些商业视频模型已经能够生成具有最小噪声、出色细节和高审美分数的可信视频。然而，这些模型依赖于社区无法访问的大规模、经过良好过滤的高质量视频。许多现有的研究工作使用低质量的 WebVid-10M 数据集训练模型，但很难生成高质量的视频，因为模型经过优化以适合 WebVid-10M。在这项工作中，我们探索了从稳定扩散扩展的视频模型的训练方案，并研究了利用低质量视频和合成高质量图像来获得高质量视频模型的可行性。我们首先分析视频模型的空间和时间模块之间的联系以及向低质量视频的分布转移。我们观察到，与仅训练时间模块相比，对所有模块进行全面训练会导致空间和时间模块之间的耦合更强。基于这种更强的耦合，我们通过使用高质量图像微调空间模块，将分布转移到更高的质量，而不会导致运动退化，从而产生通用的高质量视频模型。进行评估以证明所提出方法的优越性，特别是在图像质量、运动和概念构成方面。

4.Efficiently Programming Large Language Models using SGLang

Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Jeff Huang, Chuyue Sun, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark Barrett, Ying Sheng

github: https://github.com/sgl-project/sglang ★857

paper: https://arxiv.org/abs/2312.07104v1

Task: Large Language Models

摘要：大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。然而，缺乏用于编程和执行这些应用程序的有效系统。为了弥补这一差距，我们引入了 SGLang，一种适用于法学硕士的结构化生成语言。SGLang 专为 LLM 的高效编程而设计，并包含常见 LLM 编程模式的原语。我们将 SGLang 作为嵌入 Python 的特定领域语言实现，并为 SGLang 开发了解释器、编译器和高性能运行时。这些组件协同工作以实现并行性、批处理、缓存、共享和其他编译技术等优化。此外，我们提出了 RadixAttention，这是一种新技术，可以为基数树中的所有请求维护键值 (KV) 缓存的最近最少使用 (LRU) 缓存，从而能够在运行时跨多个生成调用自动重用 KV 缓存。SGLang简化了LLM程序的编写并提高了执行效率。我们的实验表明，SGLang 可以将常见的 LLM 任务速度提高高达 5 倍，同时降低代码复杂性并增强控制。

微信公众号同步更新