整体来看,可以从视频提取每秒的字幕,然后通过提示工程让LLM进行总结;通过LLM来提取每个画面的主体,然后经过多轮的prompt处理,完成一致性梳理,再引导LLM来生产布局,可以生成布局的dsl,通过类似于GLIGEN的方法生成图像甚至是视频;使用音频和视频,进行多模态大模型的训练也是值得关注的方向;另外,通过LLM来实现视频的剪辑和处理,是一个值得探索的新型设计工具的方向。
http://arxiv.org/pdf/2309.14494v1
Free-Bloom:由 LLM Director 和 LDM Animator 组成的基于零样本学习的文本到视频生成器
作者: Hanzhuo Huang, Yufan Feng, Cheng Shi, Lan Xu, Jingyi Yu, Sibei Yang
发表日期: 2023-09-25
总结: 作者提出了一种名为“Free-Bloom”的基于零样本学习的文本到视频生成方法,旨在从文本提示生成视频,而不使用任何视频数据。他们面临的主要挑战是确保生成视频中的语义连贯性、相同连贯性(与输入文本提示匹配)和时间连贯性。
为了解决这个问题,他们提出了一种管道,利用大型语言模型(LLM)作为指导来生成一系列描述该过程的提示,并使用预先训练的潜在扩散模型(LDM)作为动画师来生成帧。他们还推出了一系列技术解决方案:
连续提示:LLM用于补全由于话语衔接造成的提示序列中缺失的信息。
联合噪声采样:它们对跨帧的噪声潜在分布进行建模和处理,以实现一致性和扰动控制。
Step-Aware Attention Shift:引入跨帧注意力以保持连续性和单帧语义。
免训练插值授权:该模块通过在插值期间考虑上下文和当前帧来提高时间分辨率。
这些修改使 Free-Bloom 能够创建语义连贯、视觉上与提示一致(相同连贯性)并且随着时间推移具有无缝流程(时间连贯性)的视频。他们通过展示示例输出来展示其方法的有效性,其中生成的视频捕获了花朵盛开的整个过程,而不仅仅是单个阶段。
结果是无需任何视频数据即可生成高质量和语义视频,使其成为一种经济高效的解决方案。Free-Bloom 还与其他基于 LDM 的扩展兼容,可用于个性化视频生成等任务。
http://arxiv.org/pdf/2309.15091v1
VideoDirectorGPT:通过大语言模型指导规划生成一致的多场景视频
作者: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
发表日期: 2023-09-26
总结: 作者讨论了一种称为 Layout2Vid 的视频生成方法,该方法在大型语言模型 (LLM) 的指导下生成具有对象布局和跨场景一致性的视频。大语言模型充当视频规划师,提供实体的名称和布局。该过程涉及使用边界框注释在图像级数据上训练 Layout2Vid 模块,其中用于接地标记的 MLP 层和引导 2D 注意层使用与 GLIGEN 相同的数据进行训练。然而,存在一些限制,例如需要 LLM 访问和昂贵的推理,这些限制可以在未来的工作中通过量化和开源模型来解决。
作者提供的结果表明,在视觉质量(FVD 和 FID)和多个数据集的一致性方面,Layout2Vid 优于 ModelScopeT2V(一种没有布局指导的模型)。LLM 生成的视频计划指导 Layout2Vid 模块生成具有准确的对象位置和跨场景一致布局的视频。此外,一项消融研究表明,使用 CLIP 图像-文本联合嵌入进行实体接地可以产生更好的结果。
尽管有这些改进,但在视觉质量和布局一致性方面仍然存在权衡,正如将不同的去噪步骤与布局指导进行比较时所看到的那样。作者还提到了滥用 LLM 功能创建虚假信息的可能性,并建议在实际应用中谨慎行事。然而,该方法在跨场景生成一致布局方面的成功表明了其在视频编辑和讲故事方面的潜力。
当前方法的局限性是继承自 ModelScopeT2V,因为使用了预先训练的权重,这可能会影响模型在未见过的数据上的性能。尽管存在这些问题,Layout2Vid 仍然展示了使用 LLM 进行视频生成和布局控制的可行性,并且在成本和质量方面还有进一步优化的空间。
http://arxiv.org/pdf/2309.17444v2
基于大语言模型的视频扩散模型
作者:Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li
发表日期: 2023-09-29
总结: 作者描述了他们使用大型语言模型 (LLM) 生成文本到视频的方法。他们开发了一种称为基于 LLM 的视频扩散模型 (LLM-GVDM) 的方法,该方法将视频编辑与文本到图像合成相结合。该模型的工作原理是,首先将图像形式的提示和文本描述作为输入,然后生成一系列中间帧,用于使用 LLM 指导视频生成过程。
作者在实验过程中遇到了一些问题。一个问题是在预测视频剪辑时难以理解生成的图像和字幕的上下文。他们发现该模型难以生成连贯且高质量的视觉效果。为了解决这个问题,他们在每个上下文示例之后引入了一个推理步骤,以提示模型提供一个简洁的语句来解释其预测。
此外,作者注意到生成视频的质量问题。例如,大语言模型倾向于生成低分辨率图像,并且不保留运动模糊或反射等细节。他们通过在推理过程中缩放能量函数来提高视频分辨率,并向损失项添加背景和前景权重。此外,他们还观察到 LVM 对输入的呈现顺序很敏感,从而导致输出不一致。
为了进一步增强模型的性能,作者应用了梯度下降,其学习率随时间推移而降低,每代进行 40 个步骤的去噪,并使用 Topk 选择能量最小化项。他们使用 LLM 生成字幕布局,并在必要时使用称为 LoRA 微调的技术调整模型。
结果表明,与以前的模型相比,他们的 LLM-GVDM 生成的视频具有更好的质量和上下文理解。例如,他们展示了运动模糊处理的改进并在图像中保留了更多细节。然而,他们承认该方法在处理不同输入顺序之间的长期依赖性和一致性方面仍然需要改进。
http://arxiv.org/pdf/2310.04900v1
HowToCaption:使用大语言模型进行大规模转换视频注释
作者: Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne
发表日期: 2023-10-07
总结: 作者使用 LLM 生成基于 ASR 的字幕。他们通过时间戳将生成的字幕与视频临时对齐,并使用LLM过滤和对齐这些以提高字幕的质量。所提出的方法在多个文本视频检索基准上进行了测试,其中 T-V 模型在零样本学习中优于基线。在一个名为“HowToCaption”的新数据集上,该数据集包含源自 HowTo100M 的高质量人类风格文本视频描述,性能进一步提高。
他们还指出,使用较长的上下文进行字幕预测可能是有益的,并且他们提出的方法解决了训练文本视频+音频系统中音频与文本相关的问题。结果显示,各个数据集的 R10 分数显着提高,与 WebVid2M 和 VideoCC3M 相比平均提高了 5.2 分。此外,数据集的过滤和对齐版本显示性能提升了 3.6 个百分点,并且使用更长的上下文将性能额外提高了 0.6 个百分点。
总体而言,作者的方法解决了视频字幕训练中的弱监督问题,并利用大型语言模型进行文本视觉学习,在多个任务中取得了改进的结果。过滤和对齐的使用进一步提高了字幕的质量,特别是在处理数据噪声时。拟议的“HowToCaption”数据集对该研究领域做出了重大贡献,因为它提高了多个基准的性能并解决了与训练中的音频相关性相关的问题。然而,除了提供的结果之外,该方法在其他数据集和任务上的有效性尚未得到彻底探索。
http://arxiv.org/pdf/2311.15813v1
FlowZero:使用 LLM 驱动的动态场景语法进行零样本文本到视频合成
作者: Yu Lu, Linchao Zhu, Hehe Fan, Yi Yang
发表日期: 2023-11-27
总结: 该论文提出了 FlowZero,一种使用大型语言模型 (LLM) 和图像扩散模型进行文本到视频合成的方法。作者面临的主要挑战是难以根据文本提示生成连贯的视频,从而准确捕捉空间和时间动态。他们发现现有方法要么缺乏对复杂视频动态的理解,要么难以将生成的布局与文本描述保持一致。
FlowZero 通过利用 LLM 生成动态场景语法 (DSS) 来解决这些问题,其中包含来自输入文本的场景描述、对象布局和背景运动模式。DSS 是图像扩散模型创建时间连贯视频的综合指南。
作者引入了一种迭代的自我完善过程,该过程增强了生成的布局和文本提示之间的一致性,克服了空间和时间方面的错误。他们还建议使用 LLM 预测的背景运动模式来控制背景运动,并通过运动引导噪声偏移 (MNS) 技术增强视频的凝聚力。
这些组件结合起来可以产生更好的逐帧指令,直接从文本输入生成视觉上有吸引力、时间连贯的视频。作者对这些方法进行了实验,发现了零样本视频合成的显着改进。
他们的实验验证了 FlowZero 可以生成准确描述文本中描述的复杂运动和变换的视频,从而证明了他们的方法在处理他们发现的问题方面的有效性。结果表明,在使用大语言模型实现更好的文本到视频合成方面向前迈出了实质性的一步。
http://arxiv.org/pdf/2311.18445v1
VTimeLLM:赋能LLM抓住视频瞬间
作者: Bin Huang, Xin Wang, Hong Chen, Zihan Song, Wenwu Zhu
发表日期: 2023-11-30
总结: 作者提出了 VTimeLLM,一种边界感知视频语言模型 (Video LLM),旨在针对时间边界进行细粒度视频时刻理解和推理。主要问题是,现有的视频大语言模型由于对时间的理解有限,难以准确识别视频中特定事件的开始和结束时间。
为了解决这个问题,VTimeLLM 实施了边界感知的三阶段训练策略。在第一阶段,它利用图像-文本对进行特征对齐,以与模型的语义空间对齐。第二阶段涉及多事件视频文本数据以及单轮和多轮问答任务,以提高大语言模型对时间边界的意识。第三阶段通过高质量视频教学对话数据集的训练进一步增强理解。
通过大量实验,VTimeLLM 在时间视频基础和密集视频字幕等任务中表现优于其他视频 LLM。它还在视频对话基准测试中表现出色,展示了其在视频跨模态理解和推理方面的优越性。这些结果表明所提出的方法有效地解决了视频 LLM 中的时间边界检测问题。
http://arxiv.org/pdf/2312.02310v1
VaQuitA:增强大语言模型辅助视频理解的一致性
作者: Yizhou Wang, Ruiyi Zhang, Haoliang Wang, Uttaran Bhattacharya, Yun Fu, Gang Wu
发表日期: 2023-12-04
总结: VaQuitA 是一个专为视频理解而设计的创新框架,通过改进视频和文本信息的集成来提高模型在问答任务中的能力。作者解决的主要问题是,现有模型主要使用投影层将视频特征映射到标记并将它们与查询嵌入连接起来,由于它们对帧进行统一采样而没有考虑它们与给定的相关性,因此可能效率低下且不充分。
为了解决这个问题,VaQuitA引入了CLIP-score引导的帧采样方法,该方法选择与输入问题更相关的帧,并集成可训练的视频感知器和视觉查询转换器(VQ-Former)以更好地处理视频特征。此外,他们建议在测试期间在 LLM 输入中添加“请保持批判性”的提示,这有助于模型更批判性地理解和解释视频内容。
VaQuitA 框架在实验结果中展示了这些改进,它为零样本视频问答任务树立了新基准,并在生成高质量、多轮视频对话方面展示了卓越的性能。作者强调了它有效处理视频信息、处理上下文和执行推理的能力。
http://arxiv.org/pdf/2312.05269v1os
LifelongMemory:利用大语言模型回答以自我为中心的视频中的查询
作者: Ying Wang, Yanlai Yang, Mengye Ren
发表日期: 2023-12-07
总结: 该论文提出了一种名为 LifelongMemory 的解决方案,用于以自我为中心的视频自然语言查询(NLQ)任务,其中涉及在视频中查找回答所提出查询的时间窗口。问题在于,由于以自我为中心的视频中存在大量信息和繁琐的训练过程,现有方法难以捕获远程时间依赖性。作者建议使用预训练的字幕模型来生成视频的详细叙述,然后提示大语言模型进行粗粒度预测,然后使用预训练的 NLQ 模型进行细化。
他们根据有监督的端到端学习方法评估自己的方法,并显示出有竞争力的性能,特别是在使用 Ego4D 数据集提供的标题时。他们强调了在这项任务中结合多个预训练的大语言模型的潜力,并提供了设计决策和超参数的分析,这可能对未来的大语言模型研究有用。
主要结果是:
与现有的监督方法相比,LifelongMemory 方法被证明可以实现更好或相同的性能。
使用 Ego4D 叙述作为标题,它在平均召回率 (r@1) 方面优于基线模型。
多个大语言模型和字幕过程的结合被认为是以自我为中心的视频理解任务的一种有前途的方法。
然而,当不包含帧中不存在的信息时,该方法对生成字幕的依赖限制了其有效性,并且未来的工作可以探索仅使用 LLM 来进行预测而不依赖于字幕。尽管存在这种限制,但他们指出,他们的框架在复杂场景上运行良好,使其成为进一步研究的竞争基准。
http://arxiv.org/pdf/2312.06720v2
视频理解视听大语言模型
作者: Fangxun Shu, Lei Zhang, Hao Jiang, Cihang Xie
发表日期: 2023-12-11
总结: 该论文提出了视听大语言模型(Audio-Visual LLM),这是一种使用视觉和音频输入进行视频理解的模型,它通过解决视听数据联合处理的挑战,克服了先前模型的局限性。问题在于现有方法要么过于关注视觉内容,要么不能有效地整合听觉信息。
为了解决这个问题,作者提出了一种“模态增强训练”方法,其中结合特定的标记来选择性地激活每种模态(视觉和音频)的相应编码器。这允许跨不同模式进行端到端联合训练。他们还创建了一个源自 GPT-4 的数据集,作为模型的高质量视频指令的来源。
结果表明,视听 LLM 在零样本性能和各种任务中都优于以前的模型,在 MSRVTT-QA 上达到了 53.7% 的准确率,在 ActivityNet-QA 上达到了 47.2% 的准确率。它还在音频任务上表现出可比的性能,击败了 Video-LLaMA 和 Valley 等替代品。
因此,本文提出了一种有效集成视觉和音频模态的模型,并通过同时考虑这两个方面来提高视频理解能力。模态增强和大型指令数据集的使用相结合,显着增强了其处理不同视频指令和任务的能力。
http://arxiv.org/pdf/2312.17235v2
用于长视频问答的简单大语言模型框架
作者: Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius
发表日期: 2023-12-28
总结: 作者提出了一个名为 LLoVi 的简单的基于语言的框架,用于长视频理解,该框架利用大型语言模型 (LLM),无需专门的模块。他们通过将视频中的长时间推理分为短期字幕生成和使用大语言模型的长程推理来解决视频中长时间推理的挑战。
LLoVi 的工作原理是使用预先训练的视觉字幕器(例如 BLIP-2 和 LaViLa)将长视频转换为一系列简短的文本描述,然后将其提供给大语言模型。他们引入了多轮总结提示,首先要求大语言模型总结标题,然后根据总结回答问题,这有助于过滤掉不相关的信息。
作者进行了实验来调查影响其框架有效性的因素。他们的主要发现是:
与其他提示相比,使用多轮摘要提示可以提高性能(提升 5.8%)。
GPT-4 在准确性方面优于其他模型,而 GPT-3.5 在成本和准确性之间提供了更好的平衡。
与 BLIP-2 和 EgoVLP 相比,LaViLa 产生了更好的结果,而少样本上下文学习增强了这两个版本。
从 1 秒视频片段中密集提取视觉字幕可以获得最佳结果。
LLoVi 在 EgoSchema、NeXT-QA、IntentQA 和 NeXT-GQA 等基准测试中显着优于以前的方法。
总体而言,LLoVi 是一个免培训、简单且有效的远程视频理解框架,可以适应不同的大语言模型和字幕师。它的成功凸显了在视频任务中使用语言模型的潜力,并表明了摘要和字幕提取方法的重要性。作者正在发布他们的代码,以便进一步研究该主题。
http://arxiv.org/pdf/2312.17117v1
接地提示器:用多模态信息提示大语言模型,以实现长视频中的时间句子接地
作者: Houlun Chen, Xin Wang, Hong Chen, Zihan Song, Jia Jia, Wenwu Zhu
发表日期: 2023-12-28
总结: 该论文解决了长视频中的时间句子基础(TSG)问题,由于上下文的复杂性以及对较长时刻序列进行推理的需要,该问题具有挑战性。现有方法不适合此任务,因为它们在处理文本语音等多种模式的长视频时要么计算成本高,要么缺乏时间推理能力。
为了解决这个问题,作者提出了一种 Grounding-Prompter 方法,利用大型语言模型(LLM)来理解和处理长视频中的 TSG 任务。他们首先通过转录演讲和捕捉关键时刻,将 TSG 任务转换为适合大语言模型的压缩格式。然后,他们引入了边界感知提示策略,其中包括:
多尺度去噪思想链(CoT),结合全局和局部语义以实现更好的推理。
2.指导语言模型生成准确预测的有效性原则。One-shot In-Context-Learning 提高 LLM 对 TSG 任务的理解。
他们在 VidChapters-mini 数据集上进行了实验,结果表明他们的 Grounding-Prompter 明显优于其他基线方法。结果表明,文本语音和视觉内容与压缩任务文本化的结合可以在长视频上下文中实现更好的推理。
总之,作者通过制定一种利用 LLM 的方法来解决长视频中的 TSG 问题,该方法专门为此任务而设计。他们提出了一种即时策略,可以增强大语言模型的时间推理和边界感知,从而在测试数据集上实现最先进的性能。这项工作标志着在长视频上下文中使用 TSG 语言模型向前迈出了一步,而无需进行大量培训。
http://arxiv.org/pdf/2401.01256v1
VideoDrafter:使用大语言模型生成内容一致的多场景视频
作者: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
发表日期: 2024-01-02
总结: 该论文提出了一种名为 VideoDrafter 的解决方案,用于生成内容一致的多场景视频。作者观察到,现有方法主要关注单场景视频,难以管理多场景视频场景中多个场景的逻辑结构和一致性。VideoDrafter 旨在通过利用大型语言模型 (LLM) 处理输入提示并生成描述每个场景的事件、前景/背景实体和摄像机移动的全面多场景脚本来解决此问题。
该方法的工作原理如下:
1.LLM将输入提示转换为包含详细信息的多场景脚本。
2. 该框架识别跨场景的共同元素,并向 LM 询问其描述。
3. 这些描述用于生成每个元素的参考图像。
4. VideoDrafter利用两种扩散模型VideoDrafter-Img和VideoDrafter-Vid,分别生成场景参考图像和场景视频。
作者遇到的问题是逻辑地安排事件并确保场景之间的一致性。他们通过使用大语言模型重写提示、识别常见实体并生成参考图像以实现视觉一致性来解决这个问题。结果表明,基于公共基准测试的实验,VideoDrafter 在视觉质量、内容一致性和用户偏好方面优于现有最先进的视频生成模型。
http://arxiv.org/pdf/2402.10294v1
LAVE:LLM 支持的视频编辑代理协助和语言增强
作者: Bryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi
发表日期: 2024-02-15
总结: 该论文介绍了 LAVE,这是一个使用大语言模型 (LLM) 来辅助视频编辑的系统,它可以根据用户输入生成镜头语言描述并规划操作。作者解决了视频编辑复杂性的挑战,这对初学者来说可能是一个挑战,特别是在需要构思和规划的早期阶段。他们建议使用大语言模型来提供上下文帮助并自动化一些编辑任务。
LAVE 的工作原理是集成由 LLM 驱动的代理,这些代理可以理解用户的命令并执行操作,例如查找相关剪辑和构建叙述。该系统有两种模式:一种是由大语言模型执行编辑的代理辅助模式,另一种是允许手动控制进行细化的直接操作模式。他们对 8 名参与者(包括新手和经验丰富的编辑)进行了一项用户研究,以评估 LAVE 的有效性。
结果表明,LAVE 能够有效帮助用户通过 AI 协作制作视频成果。参与者发现该系统易于使用,并赞赏其在内容创建方面的帮助。该研究还揭示了用户对大语言模型辅助编辑的看法,即创造力的增加和人类与人工智能共同创造的感觉。基于这些发现,作者提出了对未来多媒体内容编辑工具的设计启示。
http://arxiv.org/pdf/2402.13546v1
大语言模型遇见长视频:利用大语言模型中的交互式视觉适配器促进长视频理解
作者: Yunxin Li, Xinyu Chen, Baotain Hu, Min Zhang
发表日期: 2024-02-21
总结: 作者解决了大语言模型有效处理长视频内容的挑战,由于难以识别和提取相关信息,大语言模型面临计算成本高、视觉清晰度降低以及响应不准确的问题。他们提出了一种名为交互式视觉适配器(IVA)的解决方案,旨在促进大语言模型和视频之间的动态交互。
问题分析:作者指出了大语言模型在处理长视频时面临的挑战,特别是与高计算成本、不清晰的视觉表示以及由于处理大量视频标记和时间线索而导致的错误响应相关的挑战。
解决方案:他们开发了 IVA,一种轻量级参数共享机制,集成了指令感知时间帧选择器和空间特征交互器。目标是选择相关框架,增强其细粒度表示,并促进与大语言模型的深入互动。
IVA 设计:IVA 的工作原理是首先使用预训练的视觉编码器来获取全局和帧表示。时间视频标记是通过将它们与时间嵌入相结合来构建的,然后输入到 LLM 中进行理解。
交互机制:IVA 有一个选择器,可以根据上下文识别与问题相关的框架,以及一个与空间特征交互的交互器,允许大语言模型和视频内容之间进行细粒度的交互。
评估:他们使用四个长视频 QA 任务和五个短视频理解基准进行实验。结果表明,IVA 提高了大语言模型理解和推理视频的能力,这一点可以从更好的表现中看出。
主要贡献是:
解决大语言模型在长视频处理方面挑战的方法
交互式视觉适配器 (IVA),用于增强与视频的交互
实验证据显示使用 IVA 时性能得到改善
局限性:
范围:IVA 对于两分钟以内的视频效果很好,但对于更长的视频需要改进。
稳定性:性能可能会受到交互频率和查询令牌长度的影响。
准确性:大语言模型可能会生成不正确的响应,这需要进一步控制。
总体而言,他们的研究有助于使用大语言模型理解视频,不过未来的研究可能会侧重于优化长视频的 IVA、处理不同频率的交互以及确保响应可靠性。
以上是今天的14篇关于LLM和video的论文笔记。
我们即将推出 论文 相关的内容,
如果你感兴趣,
可以填写表格,
关注最新消息。