视频生成
文章平均质量分 90
AI生成未来
这个作者很懒,什么都没留下…
展开
-
定制化视频生成新模范!零样本主体驱动,精确运动控制!复旦&阿里等发布DreamVideo-2
现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果。原创 2024-11-01 08:17:32 · 1249 阅读 · 0 评论 -
视频生成和具身智能强强联合!谷歌&卡内基梅隆&斯坦福发布Gen2Act:泛化超棒!
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。原创 2024-10-22 08:26:06 · 743 阅读 · 0 评论 -
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源!
值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。尤其值得注意的是,当文本提示中的对象与预设轨迹明显不太可能匹配时,Tora 动态地调整物体的局部运动,确保其整体运动仍然符合自然规律,并保持视觉的一致性。原创 2024-10-22 08:21:29 · 366 阅读 · 0 评论 -
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1024 阅读 · 0 评论 -
视频生成的黎明:100+页干货全面探讨SORA类模型(T2V&I2V&V2V全包括)腾讯&中科大
总之,本报告全面探讨了SORA类模型在高质量视频生成中的应用,涵盖了T2V、I2V和V2V任务。通过设计一系列详细的提示和案例研究,系统地评估了这些模型在各种场景中的进展、挑战和潜在应用。分析突显了视频生成领域所取得的显著进展,尤其是在视觉质量、运动自然性和动态性以及视觉-语言对齐方面。原创 2024-10-10 08:52:18 · 849 阅读 · 0 评论 -
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。原创 2024-09-11 22:56:43 · 859 阅读 · 0 评论 -
长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。原创 2024-09-09 23:50:07 · 1030 阅读 · 0 评论 -
超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。原创 2024-08-29 08:44:03 · 613 阅读 · 0 评论 -
360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
文章链接:https://arxiv.org/pdf/2408.08189项目链接:https://360cvgroup.github.io/FancyVideo/本文介绍了,据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。本文提出了跨帧文本指导模块(CTGM),该模块构建跨帧文本条件,并随后以强大的时间合理性引导潜在特征的建模。它可以有效地增强视频的运动性和一致性。本文证明了结合跨帧文本指导是一种实现高质量视频生成的有效方法。原创 2024-08-24 15:28:51 · 574 阅读 · 0 评论 -
勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
论文链接:https://arxiv.org/pdf/2408.11475项目链接:https://zhtjtcz.github.io/TrackGo-Page/亮点直击本文引入了一种新颖的运动可控视频生成方法,称为TrackGo。该方法为用户提供了一种灵活的运动控制机制,通过结合 masks 和箭头,实现了在复杂场景中的精确操控,包括涉及多个对象、细粒度对象部件和复杂运动轨迹的场景。本文开发了一个新组件,称为TrackAdapter,用于有效且高效地将运动控制信息集成到时间自注意力层中。原创 2024-08-24 15:24:04 · 877 阅读 · 0 评论 -
又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
文章链接:https://arxiv.org/pdf/2408.06072项目链接:https://github.com/THUDM/CogVideo近期,国产视频生成领域发展迅速,各家模型都在效果上下足了功夫,可谓神仙打架,前面分享过可灵,效果可以媲美Sora,这次智谱AI又发布了,效果如何呢,我们一起来看看。是一个基于文本提示生成视频的大规模扩散Transformer模型。为了高效地建模视频数据,提出使用3D变分自编码器(VAE)在空间和时间维度上对视频进行压缩。原创 2024-08-20 08:56:27 · 1233 阅读 · 0 评论
分享