通义升级2.1文生视频模型

作者公众号 大数据与AI杂谈 (TalkCheap),转载请标明出处

年底果然各家AI视频厂商扎堆更新,昨天才写了一篇Vidu2.0版本更新的测评文章,同天通义也更新了他的文生视频模型,最新版本是2.1版

和我两个月前做的测试相比,2.1版文生视频模型能力明显得到了大幅的提升,效果拔群,我总体甚至感觉这个版本可称当前(2025年1月10日)国内最强文生视频模型。那下面那我们来看看它的实际表现

注:通义是阿里的大模型家族的通用代号,包括各种大语言和图像视频模型,本文介绍的是其视频生成模型通义万象


网址: https://tongyi.aliyun.com/wanxiang/videoCreation

也可以在通义APP里使用

图片

相比两个月前,网站和APP的设计一如既往的糟糕,但没关系,我们还是看模型产品自身能力

图片

测试

首先测试一段跳舞的视频,跳舞类的视频一直也是视频生成的难点,因为动作,手,脚都不在常规的位置上,相互交叉错位的情况也很复杂,过往大多数产品生成的舞蹈视频基本都是各种肢体扭曲,又或者动作非常僵硬不自然

图片

提示词:“蒸汽朋克风格的未来世界,璀璨的水晶吊灯洒下柔和光芒,照亮了中央一对翩翩起舞的舞者。男士身着黑色燕尾服,搭配雪白衬衫与蝴蝶结领结,尽显绅士风度;女士一袭曳地长裙,裙摆以细腻蕾丝点缀,轻盈飘逸。他们紧紧相拥,手臂优雅交织,随着华尔兹旋律旋转跳跃,每一步都诠释着浪漫与激情。中景,采用稳定跟随拍摄,捕捉每一个旋转瞬间。”

类似的提示词我生成了五六个视频,大体上都还不错,产出质量比较稳定,图像也非常写实,除了有少量瑕疵和个别肢体错误,整体动作都非常流畅,舞蹈动作的肢体非常到位,非常好的体现了华尔兹舞蹈的优美韵律。 下面的视频,我不做任何删减编辑(包括错误部分也都保留了),简单编排在一起,大家自己可以看看实际效果

 【这里是GIF】(好了,这里看不到视频,要看完整视频请去公众号。。。下同)

值得一提的是,通义万象能够直接生成视频的声音,所以视频里的所有声音都是通义生成的,我没有添加后期音乐,大家可以感觉一下,是不是大部分和视频内容搭配的都比较恰当

华尔兹可能难度还不够大,那么让我们来画一下钢管舞,高难度的动作扭曲,挑战一下极限能力。这回2.1模型也没能很好的完成任务,出现了一些肢体穿帮的动作,但一段视频也有50%左右的部分是可用的,如果多抽几次卡,也能凑出一些可用的片段。下面同样无删减剪辑在一起,大家自己看效果和问题自己判断一下

忍不住又测试了一下同样困难的芭蕾舞。“视频展示了在一个宽敞明亮的舞蹈室里,一位美丽的女孩穿着经典的芭蕾舞裙,伴随着悠扬的音乐,优雅地跳起了芭蕾舞。她的每一个旋转、跳跃和伸展都充满了力量与美感,仿佛在空中划出了完美的弧线。视频通过多角度的拍摄,捕捉了女孩每一个精致的动作,展现了芭蕾舞的精髓和女孩卓越的舞蹈技巧。”

没想到居然接近完美,转了好几圈,手,腿,脸,基本都没有穿帮,除了手运动太快有些糊,其它都很清楚。估计训练的时候喂了不少类似的训练素材?


 

其它再展示几个不同内容的视频,提示词就不详细说明了,看视频内容就明白了

吃面,主要看一下物理效果,面是不是真的能吃下去

男女小丑撑着伞,拎着棒球棍,走在下雨的上海街头,看一下正常全景人物和指令的遵守能力

喀纳斯雪地航拍,看一下非人物风景视频的效果

恐怖的阁楼,惊恐的女孩,看一下光影和表情

小结

2.1版本的模型,语义理解能力和人物动作流畅性,运动的自然性都有了巨大的提升,对一些比较复杂的肢体运动也有很大的概率能较好的生成,不太容易出现明显的崩坏情况,真的是让我有些意外。

毕竟之前通义万象的视频,语义理解能力和视频整体结构质量也就在第一梯队末尾到第二梯队之间,而在大幅度动作和运动流畅性方面,则明显不如其他国内领头羊产品。但这次升级之后,除了画质相比其它产品在伯仲之间,还有提升的空间以外,视频的语义理解和人物动作控制等方面,我认为目前暂时是第一的

而视频配套的声音生成,也不再像以前,很多情况下是毫不相关的噪音,有部分已经快达到直接可用的水准了(不谈背景声音和音乐是否优美,只说和内容的相关性),不知道什么时候可以把糟糕图生视频模型也更新了。

### 阿里云通义万相2.1 版本特性 阿里云于2025年225日深夜宣布开源视频生成模型通义万相2.1,此版本提供了两个主要参数规模的选择:文生视频-1.3B和文生视频-14B。这两个版本旨在满足不同的应用场景和技术需求[^1]。 #### 文生视频-1.3B 和 文生视频-14B 的特点 - **文生视频-1.3B**:适合资源有限但希望尝试高质量视频生成的个人开发者或小型团队。 - **文生视频-14B**:针对更复杂、更高精度的任务设计,适用于专业级应用开发以及研究机构。 ### 使用说明 为了方便全球范围内的开发者获取并利用这些先进的技术成果,官方已开放多个平台供下载: - GitHub - Hugging Face - 魔搭社区 用户可以根据自己的偏好选择合适的渠道来访问源码及相关文档资料。 对于想要深入了解如何操作该工具的人来说,建议前往[通义万相官方网站](https://wanxiang.aliyun.com/)进行注册申请账号,并查阅详细的API接口指南和其他支持材料[^2]。 ### 更新内容 此次发布的通义万相2.1不仅实现了完全开源共享,在性能优化方面也取得了显著进步,具体表现在以下几个方面: - 提升了图像到视频转换的质量; - 增强了自然语言处理能力,使得描述文字能够更加精准地映射成视觉效果; - 改进了多模态融合机制,从而更好地理解输入数据之间的关联性; 此外,还修复了一些之前存在的Bug,并增加了新的功能模块以扩展系统的适用性和灵活性。 ```python import torch from transformers import AutoModelForVideoGeneration, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("path_to_model") # 替换为实际路径 model = AutoModelForVideoGeneration.from_pretrained("path_to_model") text_input = tokenizer("A beautiful sunset over the ocean", return_tensors="pt") video_output = model.generate(**text_input) print(video_output.shape) # 输出生成视频张量大小 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值