奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场-CSDN博客

本文链接：https://blog.csdn.net/qq_45416295/article/details/144097067

务实的水面下，暗流涌动。　

狂飙近两年，以“大模型六小龙”（智谱、MiniMax、月之暗面、百川智能、零一万物和阶跃星辰）为代表的AI明星公司们发展路径已有了明显的分野——谁在领先？谁在掉队？在B/C端，谁储备的弹药更足？　

本篇文章作者：卷心菜、绛烨。

卷心菜为AI视频专家&设计师。

本期文章主要看一看国内AI厂商（大模型厂&传统科技大厂&新秀厂）在AI视频生成方面做出的那些成绩。　

一、大模型厂

1、智谱AI：清影

智谱AI推出的“清影”是一款基于大模型技术的AI视频生成工具，旨在通过文本或图片输入生成高质量的视频内容。该工具于2024年7月26日正式上线，并迅速引起了广泛关注。

“清影”具备以下主要功能和特点：

多模态生成能力：清影支持文生视频（根据文本生成视频）和图生视频（根据图片生成视频），能够满足不同场景下的创作需求。用户可以通过简单的文字描述或上传图片，快速生成具有丰富细节和高质量的视频。
高效生成速度：清影的推理速度相比前代产品提升了6倍，仅需30秒即可生成6秒长的1440x960分辨率视频。此外，新版本的清影还支持生成10秒、4K、60帧的超高清视频。
音效功能：最新升级的清影增加了音效生成功能，可以为视频生成匹配的音效，进一步增强了视频的真实感和沉浸感。
灵活的应用场景：清影广泛应用于广告制作、电影剪辑、短视频创作等领域，用户可以根据需要调整视频风格、节奏以及添加背景音乐等。
开放API：清影的API已全面开放，企业和开发者可以通过调用API体验其强大的视频生成能力，推动多模态大模型的普及。

图片的功能性更明显，对用途有一个明显的区分　

LOGO制作　

头像绘制/角色绘制（定制化明显，人物特征具体化）　

故事配图（脚本分镜图片化呈现，故事制作便捷高效，画面质量还有发展空间）　

连环画绘制（卡通类风格，角色一致性程度较高）　

2、minimax：海螺AI

MiniMax海螺AI是通用人工智能科技公司MiniMax旗下的一款生产力产品，它主要面向知识工作者，旨在通过AI技术加快获取信息的速度和解决问题的能力。　

文本生成视频：用户输入文本提示，海螺AI能转化为生动的视频片段，支持多种语言，包括中文和英文。
图生视频（I2V）：用户上传一张图片，海螺AI可以基于这张图片生成具有高度一致性和连贯性的视频内容，理解并整合超出图片内容的文本指令。
情绪和表情生成：海螺AI擅长捕捉和表现人物的情感和表情，能生成从快乐到悲伤等复杂情绪的丝滑转换。
风格多样：支持超现实主义、幻想、科幻、动漫和抽象等多样化风格的视频生成。
高清视频输出：支持生成最高1280*720分辨率、25帧每秒的高清视频片段。

特点：适合做夸张的视频主打一个出其不意，无中生有　

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏 退出全屏

AIGC新知已关注

分享视频

，时长00:05

0/0

00:00/00:05

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:05

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

观看更多

转载

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

AIGC新知已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

3、月之暗面：音乐生视频

🌅

Kimi 一键为音乐生成 MV体验，每首歌都有了生动的画面感　

链接：Kimi 一键为音乐生成 MV体验，每首歌都有了生动的画面感　

选择科幻题材的模板，输入自己的场景提示词。　

kimi将会按照步骤为你生成带mv的视频。　

可以选择自定义操作，上传我们自己的音乐进行生成视频。　

MV demo:

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏 退出全屏

AIGC新知已关注

分享视频

，时长00:13

0/0

00:00/00:13

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:13

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

观看更多

转载

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

AIGC新知已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

4、百川智能：暂无

百川智能在医疗健康领域取得了显著进展，推出了通用医疗增强大模型，并在多个权威评测中超越了GPT-4，成为中文医疗任务中的最佳大模型。此外，百川智能还展示了AI健康顾问等应用，进一步推动了医疗领域的落地　

包含了全链路优质通用训练数据、Baichuan4-Turbo和Baichuan4-Air两款模型，以及全链路领域增强工具链　

Baichuan2-13B相比上一代13B模型，数学能力提升49%，代码能力提升46%，安全能力提升37%，逻辑推理能力提升25%，语义理解能力提升15%。　

暂没有信息说百川会做AI视频。　

5、零一万物：暂无

零一万物创始人提出“Infra+模型+应用”三位一体，打造可复制的大模型原生应用”，　

基础设施（AI Infra）
　

AI Infra是连接算力和应用的中间层基础设施，包括硬件、软件、工具链和优化方法等。它为大模型的训练、部署和推理提供了必要的底层支持，是整个生态系统的核心部分。　

零一万物通过自研算力管理平台，成功训练了多个百亿和千亿参数的大模型，并构建了多个超级数据中心。AI Infra的价值在于它能够降低算力成本、提升开发效率，并保持模型的优秀性能。　

大模型　

大模型是指具有大量参数的复杂模型，通常用于处理复杂的任务，如自然语言处理、图像识别等。这些模型需要强大的计算资源来训练和推理，而AI Infra则提供了这些资源的支持。　

零一万物开发的新旗舰模型Yi-Lightning和千亿参数模型Yi-Large都是基于其强大的AI Infra能力训练出来的。　

应用　

大模型的应用场景非常广泛，从电商直播、办公会议到金融、客服、培训等多个领域都有涉及。AI Infra不仅支持大模型的开发和部署，还助力这些模型在实际应用中的落地。　

在财务共享应用中，通过大模型结合保险行业知识，可以实现全自动化的金融保险制度审查。　

零一万物聚焦于创造高商业价值的垂直行业场景。　

在零售行业解决方案中，面向本地/电商直播、办公会议等场景的“如意”数字人解决方案，以及“万视”营销短视频解决方案吸引了很多人的眼球。　

零一万物如意数字人解决方案　

零一万物万视营销短视频解决方案　

暂没有信息说零一万物会做AI视频。　

6、阶跃星辰：跃问视频

使用入口：https://yuewen.cn/chats/new点击进入AI视频生成入口通道。

首页画面　

优点如下：　

优点：可以根据提示词进行润色和优化　

优点:还可进行视频主题的选择　

示例视频：

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏 退出全屏

AIGC新知已关注

分享视频

，时长00:10

0/0

00:00/00:10

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:10

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

观看更多

转载

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

AIGC新知已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

（视频来源于网站）　

视频画质细腻度不够，人物的一致程度较好　

（内测名额申请阶段）　

二、科技大厂

1、阿里：万相AI生视频

通义万相AI生视频是阿里巴巴推出的一款基于人工智能技术的视频生成工具，旨在通过用户输入的文字提示或上传的图像，自动生成高质量的动态视频内容。该功能于2024年9月19日在阿里云栖大会上正式上线，并迅速受到市场的关注和欢迎。　

通义万相采用了业界领先的Diffusion+Transformer架构，能够生成高清影视级视频，并且支持文生视频和图生视频功能　

只需要在通义APP的频道专栏下预约即可，　

缺点：生成速度，一个5s的视频生成时间约10分钟左右　

提示词不适合大段的描述，简短精炼的提示词能够更好的识别需求　

视频demo

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏 退出全屏

AIGC新知已关注

分享视频

，时长00:05

0/0

00:00/00:05

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:05

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

观看更多

转载

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

AIGC新知已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

优点：　

1.运动幅度把控，运动连贯性和动作合理性比较高　

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏 退出全屏

AIGC新知已关注

分享视频

，时长00:05

0/0

00:00/00:05

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:05

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

观看更多

转载

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

AIGC新知已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

2.图像处理种类较多，图像处理形式较多，可以满足非单一性的视频动画　

3.文生图风格化较为统一，有常见的风格化模板　

2、快手：可灵

快手可灵是快手推出的一款AI视频生成工具。该工具由快手AI团队自主研发，旨在为用户提供高质量的视频内容生成服务。

可灵大模型具备强大的视频生成能力，能够生成分辨率高达1080p、时长最高可达2分钟（帧率30fps）的视频，并支持自由选择的宽高比。

可灵大模型采用了与Sora相似的技术路线，结合了多项自研技术创新，能够模拟物理世界特性，具备强大的概念组合能力和想象力。

此外，可灵还支持文生视频和图生视频功能，并在多次更新中不断优化其性能和功能。

不用多说,画质，运动幅度，AI的智能识别程度都很高　

具体操作，操作指南可供学习　

视频demo：

3、字节：即梦AI

主页界面：应用性和操作性比较高　

玩法多样，画面风格多样化，参考性较高　

图片生成的过程中多样性，可供选择，且图片处理环节有较多选项　

图像质量,自带修复功能，增加了很多图像处理的边界线和实用度　

4、商汤科技：vimi

官网链接 https://vimi.sensetime.com/?ref=openi.cn　

（待申请阶段.....)　

三、新生力量

1、生数科技：vidu

Vidu是一个由生数科技联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型。

该模型采用原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏 退出全屏

AIGC新知已关注

分享视频

，时长00:03

0/0

00:00/00:03

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:03

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

观看更多

转载

奥特曼 VS 哥斯拉 | 国内AI视频生成领域的修罗场

AIGC新知已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。　

2、美图秀秀：美图奇想大模型&AI短片创作工具moki

🐵

我用MOKI帮我制作了一系列儿童动画短片　

链接：我用MOKI帮我制作了一系列儿童动画短片　

MOKI 是由美图公司推出的 AI 视频短片创作工具，辅助视频创作者创作动画短片、网文短剧、故事绘本以及音乐视频（MV）。MOKI专注于AI短片创作这一场景，覆盖动画短片、网文短剧、故事绘本、MV等多个类型的视频内容生产，结合行业需求，有针对性地打造了一套AI短片创作工作流。　

MOKI 基于美图自研的奇想智能大模型（MiracleVision），支持智能剪辑、自动配乐、添加音效及生成字幕等功能，极大地简化了视频制作流程，提升了创作效率。　

如何使用moki制作一个短片呢？访问MOKI官网：https://www.moki.cn，使用手机号注册账号即可在线使用。　

使用MOKI创作的过程简单，仅需三步。　

前期设定　

在前期设定阶段，用户只需输入故事梗概或导入现有脚本，MOKI便能自动生成分镜脚本并提供多种设定选项；　

内容生成　

在内容生成阶段，MOKI自动生成分镜画面并允许细节修改；　

后期制作　

在后期制作阶段，MOKI一键生成带有配乐的视频内容，并允许用户对视频生成效果持续优化。　

演示demo

总结　

优点：全流程操作一键生成、门槛性低、复合功能
缺点：风格性受限，卡通风格一致性较高、图像质量较差

【我是谁】

绛烨，enfp/infp，AI科技自媒体博主，公众号“AIGC新知”主理人（目前粉丝量10000+）

主业在一家教育公司做AI产品运营兼agent开发。

【我能提供】

（1）公众号文章合作，可友情or付费or资源置换

（2）社群相关资源

（3）AI头部KOL资源

（4）教育/agent开发等方面讨论交流

【我需要】

（1）AI教育相关认知/资源

（2）AI agent开发定制，课程培训合作等。

（3）商务合作可直接联系，期待多多交流，共同进步