HourVideo: 1-Hour Video-Language Understanding
作者:Keshigeyan Chandrasegaran, Agrim Gupta, Lea M. Hadzic, Taran Kota, Jimming He, Cristóbal Eyzaguirre, Zane Durante, Manling Li, Jiajun Wu, Li Fei-Fei
摘要:我们介绍了HourVideo,一个用于长达一小时的视频语言理解的基准数据集。我们的数据集由一个新颖的任务套件组成,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo包括来自Ego 4D数据集的500个手动策划的以自我为中心的视频,持续时间为20到120分钟,并具有12,976个高质量的五向多项选择题。基准测试结果表明,多模态模型,包括GPT-4和LLaVA-NeXT,实现了边际改善随机机会。与此形成鲜明对比的是,人类专家的表现明显优于最先进的长上下文多模态模型Gemini Pro 1.5(85.0% vs. 37.3%),凸显了多模态能力的巨大差距。我们的基准测试、评估工具包、提示和文档可在https: hourvideo.stanford.edu上获得。
链接:https://arxiv.org/html/2411.04998v1
Image Understanding Makes for A Good Tokenizer for Image Generation
摘要:摘要现代图像生成(IG)模型已被证明可以捕获丰富的语义,对图像理解(IU)任务有价值。然而,IU模型改善IG性能的潜力仍然未知。我们使用基于令牌的IG框架来解决这个问题,该框架依赖于有效的令牌器将图像投影到令牌序列中。目前,像素重建(例如,VQGAN)主导图像标记器的训练目标。相比之下,我们的方法采用特征重建目标,其中标记器通过从预训练的IU编码器中提取知识来训练。综合比较表明,具有强大IU功能的标记器在各种指标,数据集,任务和提案网络中实现了卓越的IG性能。值得注意的是,VQ-KD CLIP在ImageNet-1 k(IN-1 k)上实现了4.10美元的FID。可视化表明,VQ-KD的优越性可以部分归因于VQ-KD码本内丰富的语义。我们还引入了一个简单的管道来直接将IU编码器转换为标记器,从而证明了IG任务的卓越效率。这些发现可能会激发对图像标记器研究的进一步探索,并激发社区重新评估IU和IG之间的关系。该代码在https: github.com magic-research vector_quantization上发布。
链接:http://arxiv.org/pdf/2411.04406v1
Analyzing The Language of Visual Tokens
摘要:随着视觉和语言任务的基于transformer的模型(如LLaVA和Chameleon)的引入,人们对图像的离散标记化表示重新产生了兴趣。这些模型通常将图像块视为离散的标记,类似于自然语言中的单词,学习视觉和人类语言之间的联合对齐。然而,人们对这些视觉语言的统计行为知之甚少–它们是否遵循与自然语言相似的频率分布、语法结构或拓扑结构。在本文中,我们采取以自然语言为中心的方法来分析离散的视觉语言,并发现惊人的相似之处和根本的差异。我们证明,虽然视觉语言坚持Zipfian分布,更高的令牌创新驱动更大的熵和更低的压缩,令牌主要代表对象部分,表明中间粒度。我们还表明,视觉语言缺乏连贯的语法结构,导致更高的困惑和较弱的层次组织相比,自然语言。最后,我们证明,虽然视觉模型比其他模型更接近自然语言,但这种对齐仍然明显弱于自然语言中的凝聚力。通过这些实验,我们展示了如何理解离散视觉语言的统计特性可以为更有效的计算机视觉模型的设计提供信息。
链接:http://arxiv.org/pdf/2411.05001v1
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
摘要:由于视频中复杂的空间和时间动态,视频和文本之间的细粒度对齐具有挑战性。现有的基于视频的大型多模态模型(Large Multimodal Models,LVMs)处理基本的对话,但在视频中难以实现精确的像素级基础。为了解决这个问题,我们引入了VideoGLaMM,这是一种基于用户提供的文本输入的视频细粒度像素级接地设计的LMM。我们的设计无缝连接了三个关键组件:一个大型语言模型,一个强调空间和时间细节的双视觉编码器,以及一个用于精确生成掩码的时空解码器。这种连接通过可调的V-L和L-V适配器来促进,这些适配器能够实现紧密的视觉语言(VL)对齐。该架构被训练为将视频内容的空间和时间元素与文本指令同步。为了实现细粒度的基础,我们使用半自动注释管道来策划一个多模态数据集,该数据集具有详细的视觉基础对话,从而产生了一组38 k的视频QA三元组以及83 k的对象和671 k的掩码。我们评估VideoGLaMM在三个具有挑战性的任务:接地对话生成,视觉接地,并参考视频分割。实验结果表明,我们的模型在所有三个任务中始终优于现有的方法。
链接:http://arxiv.org/pdf/2411.04923v1
DiMSUM: Diffusion Mamba – A Scalable and Unified Spatial-Frequency Method for Image Generation
摘要:我们引入了一种新的扩散模型的状态空间架构,有效地利用空间和频率信息,以提高对图像生成任务的输入图像中的局部特征的归纳偏差。虽然状态空间网络,包括Mamba,递归神经网络的革命性进步,通常从左到右扫描输入序列,但它们在设计有效的扫描策略方面面临困难,特别是在图像数据处理方面。我们的方法表明,将小波变换集成到曼巴增强了视觉输入的局部结构意识,并通过将它们分解为小波子带(代表低频和高频分量)来更好地捕获频率的长程关系。然后,这些基于小波的输出被处理,并通过交叉注意融合层与原始Mamba输出无缝融合,结合空间和频率信息,以优化状态空间模型的阶次意识,这对图像生成的细节和整体质量至关重要。此外,我们还引入了一个全球共享的Transformer来增强Mamba的性能,利用其非凡的能力来捕捉全球关系。通过对标准基准的广泛实验,我们的方法显示出与DiT和DIFFUSSM相比更优越的结果,实现了更快的训练收敛并提供高质量的输出。代码和预训练模型在https: github.com VinAIResearch DiMSUM.git上发布。
链接:http://arxiv.org/pdf/2411.04168v1
LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
摘要:CLIP是当今最重要的多模态基础模型之一。CLIP的功能是什么?自然语言作为人类知识的载体,提供了丰富的监督信号,形成了强大的跨模态表征空间。然而,随着大型语言模型LLM(如GPT-4和LLaMA)的快速发展,语言理解和生成的边界不断被推动。这就提出了一个有趣的问题:LLM的能力能否被利用来进一步改善多模态表征学习?将LLM纳入CLIP的潜在好处是显而易见的。LLM强大的文本理解能力可以从根本上提高CLIP处理图像标题的能力,大大增强其处理长而复杂的文本的能力,这是vanilla CLIP的一个众所周知的局限性。此外,LLM是在大量的文本语料库上训练的,拥有开放世界的知识。这使他们能够在训练过程中扩展字幕信息,提高学习过程的效率。在本文中,我们提出了LLM 2CLIP,这是一种新的方法,它包含了LLM的力量来释放CLIP的潜力。通过使用对比学习微调字幕空间中的LLM,我们将其文本功能提取到输出嵌入中,显着提高了输出层的文本可辨别性。然后,我们设计了一个高效的培训过程,其中微调的LLM充当CLIP视觉编码器的强大老师。由于LLM的存在,我们现在可以合并更长和更复杂的字幕,而不受vanilla CLIP的文本编码器的上下文窗口和能力限制的限制。我们的实验表明,这种方法带来了跨模态任务的实质性改善。
链接:http://arxiv.org/pdf/2411.04997v1
A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model
摘要:在这个视频时代,自动视频编辑技术越来越受到工业界和学术界的关注,因为它们可以减少工作量并降低对人类编辑的要求。现有的自动编辑系统主要是场景或事件特定的,例如,足球比赛广播,但是用于一般编辑的自动系统,例如,覆盖各种场景和事件的电影或视频日志编辑以前很少被研究,并且将事件驱动的编辑方法转换为一般场景是不容易的。在本文中,我们提出了一种通用编辑的两阶段方案。首先,与以前提取场景特定特征的工作不同,我们利用预训练的视觉语言模型(VLM)来提取编辑相关的表示作为编辑上下文。此外,为了缩小专业视频和简单指南生成的自动制作之间的差距,我们提出了一个基于强化学习(RL)的编辑框架来制定编辑问题,并训练虚拟编辑器以做出更好的顺序编辑决策。最后,我们评估所提出的方法在一个更一般的编辑任务与一个真正的电影数据集。实验结果表明,所提出的上下文表示和我们的基于RL的编辑框架的学习能力的有效性和好处。
链接:http://arxiv.org/pdf/2411.04942v1
In the Era of Prompt Learning with Vision-Language Models
摘要:像CLIP这样的大规模基础模型已经显示出很强的zero-shot泛化能力,但却难以适应领域的变化,限制了它们的适应性。在我们的工作中,我们介绍 textsc{StyLIP},一种新的领域不可知的领域泛化(DG)提示学习策略。StyLIP通过使用样式投影仪来学习特定于领域的提示标记并将其与内容功能相结合,从而在CLIP的视觉编码器中解开视觉样式和内容的纠缠。经过对比训练,这种方法可以实现跨领域的无缝适应,在多个DG基准上优于最先进的方法。此外,我们提出了AD-CLIP用于无监督域自适应(DA),利用CLIP的冻结视觉骨干通过图像风格和内容特征来学习域不变提示。通过将嵌入空间中的域与熵最小化对齐,AD-CLIP可以有效地处理域移位,即使只有目标域样本可用。最后,我们概述了未来的工作,在遥感语义分割使用提示学习类发现,重点是在非结构化环境中识别新的或罕见的类。这为在复杂的现实世界场景中建立更具适应性和可推广性的模型铺平了道路。
链接:http://arxiv.org/pdf/2411.04892v1
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
摘要:视频生成模型正在革新内容创建,图像到视频模型由于其增强的可控性、视觉一致性和实际应用而引起越来越多的关注。然而,尽管这些模型很受欢迎,但它们依赖于用户提供的文本和图像提示,目前还没有专门的数据集来研究这些提示。在本文中,我们介绍了TIP-I2 V,这是第一个大规模的数据集,包含超过170万个独特的用户提供的文本和图像数据集,专门用于图像到视频生成。此外,我们还提供了从五种最先进的图像到视频模型生成的相应视频。我们首先概述了管理这个大规模数据集的耗时和昂贵的过程。接下来,我们将TIP-I2 V与两个流行的提示数据集VidProM(文本到视频)和DiffusionDB(文本到图像)进行比较,突出显示基本信息和语义信息的差异。该数据集使图像到视频研究取得了进展。例如,为了开发更好的模型,研究人员可以使用TIP-I2 V中的提示来分析用户偏好并评估其训练模型的多维性能;为了增强模型安全性,他们可能会专注于解决图像引起的错误信息问题视频模型。受TIP-I2 V启发的新研究以及与现有数据集的差异强调了专门的图像到视频提示数据集的重要性。该项目可在https: tip-i2v.github.io上公开查阅。
链接:http://arxiv.org/pdf/2411.04709v1
TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models
摘要:视觉语言(VL)模型已经获得了相当大的研究兴趣;然而,它们在有效处理图像中的文本方面仍然面临挑战。为了解决这个问题,研究人员开发了两种方法。第一种方法涉及利用外部光学字符识别(OCR)工具从图像中提取文本信息,然后将其预先添加到其他文本输入中。第二种策略侧重于使用极高分辨率的图像来提高文本识别能力。在本文中,我们专注于通过引入一种新的方法,名为TAP-VL,将OCR信息作为一个独特的模态,并将其无缝集成到任何VL模型,以增强第一个策略。TAP-VL采用了一个轻量级的基于transformer的OCR模块来接收带有布局信息的OCR,将其压缩成一个短的固定长度序列,以输入到LLM中。首先,我们对未标记文档进行OCR模块的模型无关预训练,然后通过简短的微调将其集成到任何VL架构中。大量的实验表明,在将TAP-VL应用于性能最佳的VL模型时,在基于场景文本和文档的VL基准测试中,性能得到了一致的提高。
链接:http://arxiv.org/pdf/2411.04642v1
DanceFusion: A Spatio-Temporal Skeleton Diffusion Transformer for Audio-Driven Dance Motion Reconstruction
摘要:本文介绍了DanceFusion,一种新的框架,用于重建和生成与音乐同步的舞蹈动作,利用时空骨架扩散Transformer。该框架熟练地处理不完整和嘈杂的骨架数据,这些数据常见于TikTok等社交媒体平台上的短形式舞蹈视频。DanceFusion集成了一个分层的基于变换器的变分自动编码器(VAE),并集成了一个扩散模型,显著增强了运动的真实感和准确性。我们的方法引入了复杂的掩蔽技术和独特的迭代扩散过程,可以细化运动序列,确保运动生成和同步的高保真度。综合评估表明,DanceFusion超越了现有的方法,在生成动态,逼真和风格多样的舞蹈动作方面提供了最先进的性能。该框架的潜在应用扩展到内容创建,虚拟现实和互动娱乐,有望在自动化舞蹈生成方面取得实质性进展。请访问我们的项目页面https: th-mlab.github.io DanceFusion 。
链接:http://arxiv.org/pdf/2411.04646v1
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
摘要:文档可视化问答(DocVQA)管道回答来自文档的问题,具有广泛的应用。现有的方法集中在处理单页文档与多模态语言模型(MLMs),或依赖于基于文本的检索增强生成(RAG),使用文本提取工具,如光学字符识别(OCR)。然而,在现实世界的场景中应用这些方法存在困难:(a)问题通常需要跨不同页面或文档的信息,其中MLMs无法处理许多长文档;(b)文档通常在视觉元素中包含重要信息,例如图形,但文本提取工具会忽略它们。我们介绍了M3 DocRAG,一种新颖的多模态RAG框架,它灵活地适应各种文档上下文(封闭域和开放域),问题跳(单跳和多跳)和证据模态(文本,图表,图等)。M3 DocRAG使用多模态检索器和MLM查找相关文档并回答问题,因此它可以有效地处理单个或多个文档,同时保留视觉信息。由于以前的DocVQA数据集在特定文档的上下文中提出问题,因此我们还介绍了M3 DocVQA,这是一个新的基准,用于评估超过3,000 + PDF文档(40,000+页)的开放域DocVQA。在三个基准测试(M3 DocVQA MMLongBench-Doc MP-DocVQA)中,实证结果表明,M3 DocRAG与ColPali和Qwen 2-VL 7 B实现了优于许多强大基线的性能,包括MP-DocVQA中最先进的性能。我们提供了不同的索引,MLMs和检索模型的综合分析。最后,我们定性地表明M3 DocRAG可以成功处理各种场景,例如当相关信息存在于多个页面中时以及当答案证据仅存在于图像中时。
链接:http://arxiv.org/pdf/2411.04952v1
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。