Mochi 1视频生成模型亮相:动作流畅,开放源代码

前沿科技速递🚀

近日,AI公司Genmo发布了最新的开源视频生成模型Mochi 1。Mochi 1在动作质量和提示词遵循能力方面有显著提升,并且与市面上许多闭源商业模型相媲美。作为一款支持个人和商业用途的开源工具,Mochi 1不仅展示了开源技术的力量,也为开发者提供了一个强大的视频生成工具。

来源:传神社区

01 模型简介

Mochi 1 是Genmo推出的一款全新视频生成模型,它在多项技术指标上超越了市场上的一些主流模型,如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。最重要的是,它以开源形式发布,并且在Apache 2.0许可下可供个人和商业使用。与市面上高昂定价的闭源模型相比,Mochi 1的开源性质将大大降低视频生成的门槛,给创作者和开发者带来新的可能性。

通过提供在线体验和开源代码,任何人都可以亲身测试Mochi 1的强大功能,体验从文本生成高质量视频的便捷。

图片

02 技术亮点

Mochi 1 在技术上取得了一些突破,尤其是在架构设计和视频生成质量方面。以下是Mochi 1的几个技术亮点:

AsymmDiT:非对称扩散变换器架构

Mochi 1采用了Genmo自主研发的AsymmDiT架构,具备100亿参数,是目前开源视频生成领域最大的一款模型。该架构在处理视觉信息时特别注重效率,使视频生成的推理过程更加平滑和流畅。视觉部分的参数量是文本部分的四倍,使得它能够捕捉到更为丰富的视觉细节。

高效视频压缩:视频VAE技术

Mochi 1引入了视频VAE(变分自编码器)技术,将原始视频数据压缩至1/128的大小,大幅减少了生成过程中的内存需求。这种高效的压缩技术降低了用户设备的资源要求,使得开发者能够在较低配置下生成高质量视频。

精确提示词遵循

该模型对提示词的遵循能力非常出色,能够根据用户输入的文本提示生成高度符合指令的视频。无论是复杂的场景、动作还是角色,Mochi 1都能准确生成符合用户预期的内容。这是通过结合多模态自注意力机制来实现的,模型能够同时关注文本和视觉tokens,并对其进行独立处理,从而达到精确控制生成视频的效果。

图片

动作流畅性与物理模拟

Mochi 1能够生成每秒30帧的视频,视频的动作流畅且连贯,特别是在模拟复杂物理现象时表现尤为突出。例如,流体动力学和毛发的模拟在Mochi 1生成的视频中显得自然且真实。此外,Mochi 1能够跨越“恐怖谷”,在生成接近现实的人类动作时表现优异。

图片

局限性

分辨率限制:目前Mochi 1的预览版仅支持480p分辨率的视频生成,虽然已经能够满足一些基本需求,但对于希望获得更高质量视频的用户来说,可能还有提升空间。值得期待的是,Genmo团队已经在积极开发高清版本,未来将支持更高的分辨率如720p甚至更高。

极端动作处理:在涉及一些非常复杂或极端动作的生成时,Mochi 1偶尔会出现轻微的视觉失真或形变。这种情况主要发生在动作变化较大的场景中,虽然不太常见,但仍有待进一步优化。随着模型的不断更新,这一问题可能会得到解决。

资源需求:尽管Mochi 1通过各种优化极大提升了生成效率,但目前推理仍需要较高的计算资源支持,推荐配置是4张H100 GPU。对于部分开发者和用户而言,这可能会稍微增加使用门槛。不过,随着硬件性能的不断提升和模型的持续优化,未来的资源要求可能会有所降低。

03 样例展示

示例指令:"A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about."

cm2mpt4kx006t3j6pu37qg7z5

示例指令:"A timelapse from the year 0 BC to the year 2000"

cm2mpt4ld007c3j6p07jlzqgt

04 模型下载

传神社区:

https://opencsg.com/models/genmo/mochi-1-preview

huggingface:

https://huggingface.co/genmo/mochi-1-preview

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值