A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models
翻译摘要: 随着语音大型语言模型(Speech LLMs)的兴起,人们对于离散语音标记的兴趣日益增长,因为它们能够与基于文本的标记无缝集成。与大多数专注于连续语音特征的研究相比,基于离散标记的语言模型在某些任务上显示出了有希望的结果,但这两种范式之间的性能差距很少被探索。在本文中,我们使用一个轻量级语言模型(Qwen1.5-0.5B)在多种与语义相关的任务上对离散和连续特征进行了公平而彻底的比较。我们的发现显示,连续特征通常优于离散标记,特别是在需要细粒度语义理解的任务中。此外,这项研究通过识别离散标记表现不佳的关键因素,如有限的标记粒度和信息保留效率低下,超越了表面级别的比较。为了提高离散标记的性能,我们基于我们的分析探索潜在的方面。我们希望我们的结果能为推动语音大型语言模型中离散语音标记的发展提供新的见解。
Motion Control for Enhanced Complex Action Video Generation
翻译摘要: 现有的文本到视频(T2V)模型在生成具有明显或复杂动作的视频方面往往存在困难。关键局限在于文本提示不能精确传达复杂的运动细节。为了解决这一问题,我们提出了一个新颖的框架,即 MVideo,旨在生成具有精确、流畅动作的长时视频。MVideo 通过将遮罩序列作为附加的运动条件输入来克服文本提示的局限,提供了更清晰、更准确的预期动作表示。MVideo 利用基础视觉模型如 GroundingDINO 和 SAM2,自动生成遮罩序列,提升了效率和稳健性。我们的结果显示,经过训练后,MVideo 有效地将文本提示与运动条件对齐,生成同时满足这两个标准的视频。这种双重控制机制通过允许独立或同时改变文本提示或运动条件,使视频生成更加动态。此外,MVideo 支持运动条件编辑和组合,便于生成具有更复杂动作的视频。因此,MVideo 推进了 T2V 运动生成,在改善当前视频扩散模型中动作描述方面树立了强有力的基准。我们的项目页面可在 https://mvideo-v1.github.io/ 访问。
Snakes and Ladders: Two Steps Up for VideoMamba
作者: Hui Lu, Albert Ali Salah, Ronald Poppe
翻译摘要: 视频理解需要提取丰富的时空特征,而变换器模型通过自注意力实现这一点。不幸的是,自注意力带来了计算负担。在自然语言处理中,Mamba作为变换器的高效替代方案已经出现。然而,Mamba在视觉任务中的成功并不容易推广到视频分析等领域。在本文中,我们理论上分析了自注意力和Mamba之间的差异。我们发现Mamba在令牌处理中存在两个限制:历史衰减和元素矛盾。我们提出了VideoMambaPro (VMP),通过在VideoMamba骨干网络中增加遮蔽后向计算和元素残差连接来解决这些限制。不同大小的VideoMambaPro模型在Kinetics-400和Something-Something V2上分别比VideoMamba提高了1.6-2.8%和1.1-1.9%的top-1准确率。即使没有广泛的预训练,我们的模型也呈现出对当前变换器模型的越来越有吸引力和高效的替代方案。此外,我们的两种解决方案与最近在Vision Mamba模型中的进展是正交的,并且可能在未来的模型中提供进一步的改进。
A Survey on Vision Autoregressive Model
翻译摘要: 自回归模型在自然语言处理(NLP)中展示了出色的表现,具有令人印象深刻的可扩展性、适应性和泛化能力。受其在NLP领域显著成功的启发,自回归模型最近在计算机视觉方面得到了密集研究,通过将视觉数据表示为视觉令牌来执行下一个令牌的预测,并使自回归建模适用于广泛的视觉任务,从视觉生成和理解到最近的多模态生成,这统一了视觉生成与理解于单一的自回归模型中。本文提供了关于视觉自回归模型的系统性回顾,包括建立现有方法的分类体系,并突出其主要贡献、优势和局限性,涵盖各种视觉任务,如图像生成、视频生成、图像编辑、运动生成、医学图像分析、3D生成、机器人操控、统一的多模态生成等。此外,我们调查并分析了自回归模型的最新进展,包括对各种评估数据集的现有方法进行彻底的基准测试和讨论。最后,我们概述了未来研究的主要挑战和有希望的方向,提供了一个指导视觉自回归模型进一步发展的路线图。
Sharingan: Extract User Action Sequence from Desktop Recordings
翻译摘要: 用户活动的视频记录,尤其是桌面记录,为理解用户行为和自动化过程提供了丰富的数据来源。然而,尽管视觉语言模型(VLMs)取得了进展,并且在视频分析中的使用日益增加,但从桌面录像中提取用户动作仍然是一个探索不足的领域。这篇论文通过提出两种新颖的基于VLM的用户动作提取方法来解决这一空白:直接帧基方法(DF),将采样帧直接输入到VLM中;差异帧基方法(DiffF),通过计算机视觉技术检测到的显式帧差异。我们使用基本的自策数据集和从先前工作中改编的高级基准来评估这些方法。我们的结果表明,DF方法在识别用户动作方面的准确率为70%至80%,提取的动作序列可通过机器人过程自动化再现。我们发现,尽管VLM显示出潜力,但结合显式UI变化可能会降低性能,使DF方法更可靠。这项工作代表了VLM用于从桌面记录中提取用户动作序列的首次应用,为未来的研究贡献了新方法、基准和见解。
Multimodal Instruction Tuning with Hybrid State Space Models
翻译摘要: 处理长篇幅的上下文对于提升多模态大型语言模型(MLLMs)在处理高分辨率图像或高帧率视频等应用中的识别和理解能力至关重要。图像分辨率和帧率的提升显著增加了计算需求,因为输入令牌的数量增加了。这一挑战由于自注意力机制与序列长度的二次复杂性进一步加剧。大多数先前的工作要么是用长上下文预训练模型,忽视了效率问题,要么尝试通过降采样(例如,识别关键图像块或帧)来减少上下文长度,这可能会导致信息丢失。为了在保持MLLMs显著效果的同时规避这一问题,我们提出了一种使用混合变压器-MAMBA模型的新方法,以高效处理多模态应用中的长上下文。我们的多模态模型能够有效处理超过100k令牌的长上文输入,超越现有模型在各种基准测试中的表现。值得注意的是,与当前模型相比,我们的模型提高了高分辨率图像和高帧率视频的推理效率约4倍,随着图像分辨率或视频帧的提高,效率提升也在增加。此外,我们的模型是第一个在低分辨率图像或低帧率视频上训练同时能够在高分辨率图像和高帧率视频上进行推理的模型,为在多种场景中进行推理提供了灵活性。
A Single Transformer for Scalable Vision-Language Modeling
翻译摘要: 我们在这里介绍SOLO,一个用于可扩展视觉语言建模的单一变压器模型。当前的大型视觉语言模型(LVLMs),如LLaVA,主要采用异构架构,将预训练的视觉编码器与大型语言模型(LLMs)连接起来,以便进行视觉识别和复杂推理。尽管这些模型在较轻量的训练下实现了卓越的性能,但我们认识到了四个主要的可扩展性限制:(1)视觉能力受到预训练视觉编码器的限制,这些编码器通常比LLMs小一个数量级。(2)异构架构使得已建立的硬件和软件基础设施的使用变得复杂。(3)对这种架构的可扩展性法则的研究必须考虑视觉编码器、连接器和LLMs三个独立的组件,这使得分析变得复杂。(4)使用现有的视觉编码器通常需要遵循预定义的图像输入预处理规范,例如将输入调整为固定分辨率的正方形图像,这在处理和训练高分辨率图像或具有不寻常宽高比的图像时会带来困难。
像SOLO这样的统一单一变压器架构有效地解决了LVLMs的这些可扩展性问题;然而,它在现代背景下的应用受限很可能源于缺乏可靠的训练配方,这些配方能够平衡两种模态并确保数十亿规模模型的稳定训练。在本文中,我们介绍了第一个开源训练配方,用于开发SOLO,这是一个使用适度学术资源的开源7B LVLM。训练配方包括从LLMs初始化、在ImageNet和网络规模数据上进行序列预训练,以及在我们精心策划的高质量数据集上进行指令微调。通过广泛评估,SOLO的性能可与LLaVA-v1.5-7B相媲美,特别是在视觉数学推理方面表现突出。
Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks?
翻译摘要: 多模态大型语言模型(MLLMs)在深度学习领域取得的突破性进展得到了显著认可,其中视频基础模型(VFMs)和大型语言模型(LLMs)的融合在构建强大的视频理解系统方面被证明是非常有效的,成功克服了与预定义视觉任务相关的限制。这些复杂的MLLMs在理解视频方面表现出卓越的能力,迅速达到了多个不同基准测试中前所未有的性能水平。然而,它们的运行需要大量的内存和计算资源,这突显了传统模型在视频理解任务中的持续重要性。在本文中,我们引入了一个名为MLLM4WTAL的新学习范式。这个范式利用MLLM的潜力为传统的弱监督时序动作定位(WTAL)方法提供时间动作关键语义和完整的语义先验。MLLM4WTAL通过利用MLLM的指导来增强WTAL的性能。它通过整合两个不同的模块来实现这一点:关键语义匹配(KSM)和完整语义重构(CSR)。这些模块协同工作以有效解决WTAL方法中常见的问题,如不完整和过度完整的结果。我们进行了严格的实验来验证我们提出的方法在提高各种异构WTAL模型的性能方面的有效性。
Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval
翻译摘要: 现有的多模态检索系统经常依赖于分散的图像理解模型,例如物体检测器和标题生成器,从而导致实施和训练过程繁琐。为了克服这一限制,我们提出了一个端到端的检索系统Ret-XKnow,以赋予文本检索器通过动态模态交互理解多模态查询的能力。Ret-XKnow利用部分卷积机制专注于与给定文本查询相关的视觉信息,从而增强多模态查询表征。为了有效地学习多模态交互,我们还引入了从视觉对话数据集自动构建的视觉对话到检索(ViD2R)数据集。我们的数据集构建过程确保了对话被转换为使用文本检索器的适当信息检索任务。我们证明了我们的方法不仅在零样本设置中显著提高了检索性能,而且在微调场景中也取得了显著的改进。我们的代码已公开:https://github.com/yeongjoonJu/Ret_XKnow。
Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation
翻译摘要: 鉴于半监督和自监督学习共享一个基本原则,即有效地从未标记数据中建模知识,各种半监督语义分割方法已经整合了具有代表性的自监督学习范式以进一步规范化。然而,尚未充分研究最先进的生成自监督范式——掩蔽图像建模的潜力。该范式通过在像素重建过程中建立掩蔽部分与可见部分之间的联系来学习知识。通过继承并扩展这一见解,我们成功地利用掩蔽图像建模来提升半监督语义分割。具体来说,我们引入了一种新颖的按类别掩蔽图像建模,根据各自的类别独立重建不同的图像区域。通过这种方式,在每个类别内建立了由掩蔽引起的联系,从而减轻了在基本掩蔽图像建模中简单重建图像所引起的语义混淆。为了加强这些类内联系,我们进一步开发了一种特征聚合策略,最小化了属于同一类别的掩蔽部分和可见部分之间的特征距离。此外,在语义空间中,我们探索了掩蔽图像建模增强规范化的应用。在知名基准上进行的广泛实验表明,我们的方法达到了最先进的性能。代码将在 https://github.com/haoxt/S4MIM 提供。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。