文字也能生成视频?【蓝耘实践】:通义万相2.1文生视频

文字也能生成视频?【蓝耘实践】:通义万相2.1文生视频

img

上次我们已经介绍了关于在蓝耘云平台实践通义万相的基本玩法,这次将介绍进阶玩法,也就是使用文字来生成视频

首先我们还是先注册或者登录蓝耘云平台。

通过蓝耘平台进入流程

image-20250305112505339

  • 登录之后,我们进入应用市场寻找并部署

img

image-20250325090146127

  • 进入文字生视频,点击右上角部署按钮,然后选择配置内容。这里我的选择是:按量付费、GPU的型号选择RTX 3090 、显存:24GB 内存:120GB 系统盘:30GB SSD,大家可以根据自己需要来进行选择。

    image-20250312202928737

  • 等待其创建完成,然后点击快速启动应用按钮,进入界面。

image-20250325090324511

  • 进入该界面,填写提示词。

    image-20250325090625313

  • 我这里的提示词是十秒钟的视频片段,展现了一幅荒凉而震撼的沙漠暴风雨景象。画面伊始,广袤无垠的沙漠被倾盆大雨笼罩,雨滴密集而急促,清晰可见,如同天地间的珠帘,营造出一种强烈的视觉冲击。远处,闪电划破天际,雷声轰鸣,电闪雷鸣的壮观场面与沙漠的寂静形成鲜明对比,增添了几分戏剧性。整部短片以阴沉昏黄的色调为主,仿佛世界被一层厚重的黄沙所覆盖,给人以压抑之感。从第六秒开始,画面逐渐陷入黑暗,光线缓缓消逝,犹如夕阳的最后一抹余晖,直至第十秒,画面彻底沦为一片漆黑,留给观众无限遐想。这不仅是一场自然现象的展示,更是对时间流逝与光明消逝的深刻隐喻。全景镜头,捕捉大自然的磅礴气势,配合渐进式的光影变化,营造出紧张而神秘的氛围。

  • 生成如下的视频(图片预览):
    image-20250325092214867

效果还是很不错的。

通义万相文生视频2.1与蓝耘元生代智算云平台的联合运用,为人工智能领域的开发者和研究者提供了强大的工具组合,助力高效的视频生成与处理。

通义万相文生视频2.1的特点:

通义万相2.1是阿里巴巴于2025年1月推出的开源文生视频大模型,在Vbench榜单中位居榜首,超越了Sora、HunyuanVideo等国内外视频生成模型。 该模型提供多种版本,包括1.3B和14B参数规模的文生视频模型,以及支持480P和720P分辨率的图生视频模型。然而,14B模型对硬件要求较高,需高性能GPU支持。

蓝耘元生代智算云平台的特点:

蓝耘元生代智算云平台为AI开发者提供一站式开发环境,涵盖数据准备、代码开发、模型训练和部署等全流程。其GPU智算云服务包括:

  1. GPU虚拟云主机:面向AI训练、图形处理、科学计算等领域,提供专享高性能GPU虚拟云主机,显著提升计算能力。
  2. HPC平台:适用于生命科学、CAE仿真、物理化学等高性能计算需求,提供强大的计算支持。

将通义万相2.1部署在蓝耘元生代智算云平台上,开发者可利用高性能GPU资源,高效运行大型模型,生成高质量视频内容。蓝耘平台的一站式开发环境简化了模型训练与部署流程,提升开发效率。此外,云平台的弹性扩展能力使开发者能根据需求调整资源配置,优化成本。

通义万相文生视频2.1与蓝耘元生代智算云平台的结合,为视频生成领域提供了高效、灵活的解决方案,助力开发者在人工智能创作领域取得更大突破。

还在等什么,快来注册账号进行体验吧~
蓝耘GPU平台注册链接

img

### 阿里云通义2.1 版本特性 阿里云于2025年225日深夜宣布开源视频生成模型通义2.1,此版本提供了两个主要参数规模的选择:文生视频-1.3B和文生视频-14B。这两个版本旨在满足不同的应用场景和技术需求[^1]。 #### 文生视频-1.3B 和 文生视频-14B 的特点 - **文生视频-1.3B**:适合资源有限但希望尝试高质量视频生成的个人开发者或小型团队。 - **文生视频-14B**:针对更复杂、更高精度的任务设计,适用于专业级应用开发以及研究机构。 ### 使用说明 为了方便全球范围内的开发者获取并利用这些先进的技术成果,官方已开放多个平台供下载: - GitHub - Hugging Face - 魔搭社区 用户可以根据自己的偏好选择合适的渠道来访问源码及关文档资料。 对于想要深入了解如何操作该工具的人来说,建议前往[通义官方网站](https://wanxiang.aliyun.com/)进行注册申请账号,并查阅详细的API接口指南和其他支持材料[^2]。 ### 更新内容 此次发布的通义2.1不仅实现了完全开源共享,在性能优化方面也取得了显著进步,具体表现在以下几个方面: - 提升了图像到视频转换的质量; - 增强了自然语言处理能力,使得描述文字能够更加精准地映射成视觉效果; - 改进了多模态融合机制,从而更好地理解输入数据之间的关联性; 此外,还修复了一些之前存在的Bug,并增加了新的功能模块以扩展系统的适用性和灵活性。 ```python import torch from transformers import AutoModelForVideoGeneration, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("path_to_model") # 替换为实际路径 model = AutoModelForVideoGeneration.from_pretrained("path_to_model") text_input = tokenizer("A beautiful sunset over the ocean", return_tensors="pt") video_output = model.generate(**text_input) print(video_output.shape) # 输出生成视频张量大小 ```
评论 40
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Skrrapper

谢谢你的支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值