PAIR发布长视频生成模型StreamingT2V：2分钟超长AI视频生成，最强开源视频生成-CSDN博客

本文链接：https://blog.csdn.net/nulifancuoAI/article/details/137527386

随着AI发展，AIGC成热点。Picsart等团队推出的StreamingT2V长视频生成模型，能通过文本生成不同时长视频，动作连贯。它采用创新自回归技术框架，有三大模块保障视频质量。研究团队准备开源该模型，其应用前景广阔，将推动视频生成技术发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

随着人工智能技术的不断进步，AI生成内容（AIGC）已经成为了技术研究和应用开发的热点领域。特别是在视频生成领域，从短视频到长视频的生成，AI模型正不断突破限制，带来更加丰富和动态的内容创作可能。最近，Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出的StreamingT2V视频模型，无疑为长视频生成领域注入了新的活力。

StreamingT2V模型简介

StreamingT2V是一种先进的长视频生成模型，能够通过文本直接生成2分钟、1分钟等不同时间长度的视频，且这些视频动作一致、连贯，没有卡顿，展现出高质量的视频生成能力。虽然在视频质量和多元化方面，StreamingT2V还无法与Sora模型媲美，但其在高速运动视频生成方面的表现尤为出色，为开发更长时间的视频模型提供了重要的技术参考。

Huggingface模型下载：https://huggingface.co/PAIR/StreamingT2V
AI快站模型免费加速下载：https://aifasthub.com/models/PAIR

技术创新点

StreamingT2V采用了创新的自回归技术框架，通过条件注意力、外观保持和随机混合三大模块，极大地延长了视频的时间长度，同时保证了动作的连贯性和视频的整体质量。简单来说，StreamingT2V通过“击鼓传花”的方法，利用每个模块提取前一个视频块中的表示特征，以保证动作一致性、文本语义还原和视频完整性等。

条件注意力模块：作为一种“短期记忆”，该模块通过注意力机制从前一个视频块中提取特征，并将其注入到当前视频块的生成中，从而实现流畅自然的块间过渡。
外观保持模块：作为一种“长期记忆”，该模块从初始图像（锚定帧）中提取场景和对象特征，并用于所有视频块的生成流程，保持视频全局场景、外观的一致性。
随机混合模块：用于增强视频分辨率和质量，通过自回归增强的方法，优化视频的分辨率，同时保持视频的时间连贯性。

开源与应用前景

研究团队已经宣布，他们正在准备开源StreamingT2V视频模型。一旦开源，这将极大促进视频生成技术的研究和应用开发，为AIGC领域带来新的创新和突破。StreamingT2V的应用前景广阔，不仅可以用于娱乐和创意内容生成，还可以应用于教育、培训和模拟等领域，提供更加丰富和真实的视觉体验。

结论

StreamingT2V模型的推出，标志着AI视频生成技术向更长时间、更高质量的方向迈进了一大步。随着模型的开源和进一步的技术迭代，我们有理由相信，未来AI生成的视频将更加生动丰富，为人们带来更加震撼的视觉享受。

模型下载

Huggingface模型下载

https://huggingface.co/PAIR/StreamingT2V

AI快站模型免费加速下载

https://aifasthub.com/models/PAIR