视频生成
文章平均质量分 90
AI生成未来
这个作者很懒,什么都没留下…
展开
-
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。原创 2024-09-11 22:56:43 · 801 阅读 · 0 评论 -
长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。原创 2024-09-09 23:50:07 · 992 阅读 · 0 评论 -
超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。原创 2024-08-29 08:44:03 · 591 阅读 · 0 评论 -
360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
文章链接:https://arxiv.org/pdf/2408.08189项目链接:https://360cvgroup.github.io/FancyVideo/本文介绍了,据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。本文提出了跨帧文本指导模块(CTGM),该模块构建跨帧文本条件,并随后以强大的时间合理性引导潜在特征的建模。它可以有效地增强视频的运动性和一致性。本文证明了结合跨帧文本指导是一种实现高质量视频生成的有效方法。原创 2024-08-24 15:28:51 · 552 阅读 · 0 评论 -
勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
论文链接:https://arxiv.org/pdf/2408.11475项目链接:https://zhtjtcz.github.io/TrackGo-Page/亮点直击本文引入了一种新颖的运动可控视频生成方法,称为TrackGo。该方法为用户提供了一种灵活的运动控制机制,通过结合 masks 和箭头,实现了在复杂场景中的精确操控,包括涉及多个对象、细粒度对象部件和复杂运动轨迹的场景。本文开发了一个新组件,称为TrackAdapter,用于有效且高效地将运动控制信息集成到时间自注意力层中。原创 2024-08-24 15:24:04 · 846 阅读 · 0 评论 -
又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
文章链接:https://arxiv.org/pdf/2408.06072项目链接:https://github.com/THUDM/CogVideo近期,国产视频生成领域发展迅速,各家模型都在效果上下足了功夫,可谓神仙打架,前面分享过可灵,效果可以媲美Sora,这次智谱AI又发布了,效果如何呢,我们一起来看看。是一个基于文本提示生成视频的大规模扩散Transformer模型。为了高效地建模视频数据,提出使用3D变分自编码器(VAE)在空间和时间维度上对视频进行压缩。原创 2024-08-20 08:56:27 · 1120 阅读 · 0 评论