MiniMax低调发布首款文生视频模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_41446370/article/details/141795267

8月31日，MiniMax低调发布首款视频生成大模型，同时发布一条由MiniMax大模型生成的2分钟视频《魔法硬币》。

值得注意的是，目前MiniMax并未公布模型的具体参数和技术要点。当天，MiniMax创始人闫俊杰在接受界面新闻等媒体群访时表示，“我们确实在视频模型生成方面取得很大的进展，根据内部评测以及跑分，我们比Runway的（生成视频）效果更好。”

据其透露，目前的视频生成模型只是第一版，很快会有新版本，后续还会在数据、算法本身、使用细节等方面继续迭代，现在只提供文生视频。未来图生视频、文+图生成视频都会陆续出来。

“我们的策略先再等一两周，等新东西到达满意状态后，可能会考虑商业化。”闫俊杰进一步表示。

目前，MiniMax的商业化由两部分组成，开放平台有两千多家客户。其次，该公司的产品中也有广告机制。“现阶段，最重要的东西不是商业化，而是技术能够到达广泛可用的程度。”闫俊杰说。

然而，相较于快手可灵，MiniMax推出视频生成模型在时间上晚了一两个月。

闫俊杰解释，这期间，团队一直在解决更难的技术问题——如何训练算力较高的内容。难度在训练视频生成能力，需要先把视频变成token，这些token非常长，越长复杂度越高。最终，MiniMax团队通过算法不断降低复杂度，压缩率变得更高，因此发布时间晚了一两个月。

但他也表示，不管是视频、文本、声音，MiniMax团队的核心研发思路不在于找一个算法提升5%、10%的路径，“如果能提升几倍就一定要做出来，只提升5%就不太值得做。”

谈及为何一定要做文生视频，闫俊杰认为，本质在于人类每天消费的大部分内容是图文和视频，文字占比不高。为了有更高的用户覆盖度和使用度，唯一的办法是输出多模态内容，而不是单纯输出文字内容，一定要做多模态，这个路线是一以贯之的。

视频生成大模型存在一定难度。闫俊杰解释称，视频的工作复杂度比做文本更难，视频的上下文文本天然很长，处理难度大。

其次，视频量很大，例如5秒视频有几兆，100个字可能都不到1K，背后是几千倍的存储差距。

生成视频模型的挑战在于，之前基于文本建的这套底层基础设施不适用于视频生成，例如怎么处理、清洗以及标注数据，这就意味着基础设施也需要升级。

在当天的发布会上，闫俊杰着重提及“快”。他认为，长期看，进步越快的东西就越好。不管是做MOE还是Linear attention，还是其他探索，本质上还是让同样的效果模型变得更快。闫俊杰指出：“快才意味着同样的算力（训练内容）可以变得更好。”

当天，MiniMax开放平台负责人魏伟业在活动中表示，当前，大模型的效果、成本和多模态还面临挑战。

第一，大模型有不可避免的幻觉，也会因为对指令遵从和语言理解能力不足，导致输出不符合预期，因此要坚持做更高、更快、更强的模型。

第二，去年到今年上半年，成本是制约很多企业用不起大模型的原因。

今年五月以来，大模型领域掀起价格战，API一路降至“白菜价”。魏伟认为，低成本能够激发出更多应用场景的出现，未来API成本会再进一步降级。

第三，多模态会触发出更多的应用场景，比如文本和语音的结合，能够让大模型更好地识别和表达情绪。语音和视频的结合，能够生成带配音的短视频和广告片段。

当前，大模型领域存在很多非共识：到底要做toB（企业）还是toC（用户）？国内市场还是做海外市场，Scaling Law（规模法则）能否延续？针对这些行业内普遍的问题，闫俊杰直言：尽管有很多挑战，我们属于最乐观的公司，对技术进步、用户、产品迭代效率都充满乐观。