开源项目 | Mochi：最强开源视频生成模型

猫先生@魔方AI空间

已于 2024-11-15 16:03:14 修改

阅读量2.3k

点赞数 13

分类专栏：开源项目 AI视频 AIGC 文章标签： AIGC 人工智能音视频语言模型 transformer

于 2024-11-15 15:55:27 首次发布

本文链接：https://blog.csdn.net/m_aigc2022/article/details/143801037

版权

AIGC 同时被 3 个专栏收录

26 篇文章

订阅专栏

开源项目

8 篇文章

订阅专栏

AI视频

5 篇文章

订阅专栏

〔更多精彩AI内容，尽在 「魔方AI空间」 公众号，引领AIGC科技时代〕

本文作者：猫先生

AIGCmagic社区知识库（免费访问）

原文地址：开源项目 | Mochi：最强开源视频生成模型

简介

Mochi 1 preview 是一个开源的、最先进的视频生成模型，具有高保真运动和初步评估中的强烈提示依从性。此模型极大地缩小了封闭和开放视频生成系统之间的差距。

官方运行版本硬件要求需要 4 个 H100 GPU 才能运行。

在线体验地址：https://www.genmo.ai/play

3060显卡12G低显存运行方案：https://t.zsxq.com/q0hVZ

模型架构

Mochi 1 代表了开源视频生成的重大进步，具有基于新颖的非对称扩散变压器（AsymmDiT）架构构建的 100 亿个参数扩散模型。它完全从头开始训练，是有史以来公开发布的最大视频生成模型。最重要的是，它是一个简单、可破解的架构。

除了Mochi，Genmo还将视频VAE开源。我们的VAE将视频因果压缩到128倍的较小尺寸，将8x8的空间和6倍的时间压缩到12个通道的潜在空间。

AsymmDiT 通过简化文本处理并将神经网络能力集中在视觉推理上，有效地处理用户提示和压缩的视频令牌。AsymmDiT 通过多模态自我注意共同关注文本和视觉标记，并为每种模态学习单独的 MLP 层，类似于 Stable Diffusion 3。但是，视觉流通过更大的隐藏维度拥有几乎是文本流的 4 倍的参数。为了统一自我注意的模态，Mochi使用非方形 QKV 和输出投影层，这种非对称设计降低了推理内存要求。

效果评估

今天，视频生成模型与现实之间存在巨大差距。运动质量和及时依从是视频生成模型中仍然缺少的两个最关键的功能。

Mochi 1 为开源视频生成设定了新的一流标准。它还与领先的封闭模型相比表现非常有竞争力。具体来说，我们的 480p 预览具有很强的：

及时依从：展示与文本提示的出色一致性，确保生成的视频准确反映给定的说明。这允许用户对字符、设置和操作进行详细控制。我们使用视觉语言模型作为遵循 OpenAI DALL-E 3 协议的判断，使用自动指标对提示依从性进行基准测试。使用 Gemini-1.5-Pro-002 评估生成的视频。
运动质量：Mochi 1 以每秒 30 帧的速度生成流畅的视频，持续时间长达 5.4 秒，具有高度的时间连贯性和逼真的运动动态。Mochi 模拟流体动力学、毛皮和头发模拟等物理特性，并表达开始穿越恐怖谷的一致、流畅的人类动作。评分者被指示专注于运动而不是帧级美学（标准包括运动的趣味性、物理合理性和流动性）。Elo 分数是按照 LMSYS Chatbot Arena 协议计算的。

部署安装

1. 克隆存储库并以可编辑模式安装

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

2. 下载权重

模型权重地址：https://huggingface.co/genmo/mochi-1-preview/tree/main

3. 运行

使用 gradio UI 启动

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"

使用 CLI 直接从 CLI 生成视频

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"