腾讯混元发布图生视频模型HunyuanVideo-I2V,并上线对口型等玩法

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展,旨在推动开放源代码社区的深入探索。

在这里插入图片描述
HunyuanVideo-I2V 结合了先进的视频生成技术,能够将静态图像转换为生动的视频内容,为创作者提供了更多的可能性。用户只需上传一张图片,并简单描述希望画面的动态效果,便可以生成一段五秒的短视频。这款模型的特点在于它不仅能让静态图片 “动起来”,还能够自动配上背景音效,极大地增强了视频的趣味性和吸引力。

HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器,显著增强了模型对输入图像语义内容的理解能力。这意味着,用户输入的图像能够通过模型生成语义图像标记,这些标记与视频潜在标记相结合,从而实现更全面的全注意力计算。通过这种方式,系统能够最大限度地发挥图像和文本模态之间的协同作用,确保从静态图像生成的视频内容更具连贯性和真实感。

为了让更多用户体验这一功能,混元 AI 视频官网已经上线,用户可以直接访问网站进行操作。此外,企业和开发者也可以通过腾讯云申请 API 接口,将该技术融入自己的应用中。这款图生视频模型是混元文生视频模型开源工作的延续,模型总参数量达 130 亿,适合生成多种类型的角色和场景,涵盖写实视频、动漫角色和 CGI 角色等。

在具体使用过程中,用户还可以上传人物图片,并输入希望其 “对口型” 的文字或音频,系统就能够让图片中的人物 “说话” 或 “唱歌”。与此同时,混元还推出了 “动作驱动” 功能,用户可以一键生成相应的舞蹈视频,提升创作的多样性和趣味性。

值得一提的是,此次开源的图生视频模型已经在 Github 和 HuggingFace 等主流开发者社区发布,开发者可以下载相关内容进行试验与开发。开源内容包括模型的权重、推理代码以及 LoRA 训练代码,这些都为开发者提供了更多的可能性,以便在此基础上训练专属的 LoRA 模型。

自开源以来,混元视频生成模型的热度不断上升,去年 12 月更是登顶 HuggingFace 的全站趋势榜第一,Github 上的 Star 数已超过 8.9K。许多开发者也积极为 Hunyuanvideo 制作插件与衍生模型,目前已经积累超过 900 个衍生版本。早前开源的混元 DiT 文生图模型同样表现不俗,衍生模型数量达 1600 多个。

官网:https://video.hunyuan.tencent.com/

github:https://github.com/Tencent/HunyuanVideo-I2V

huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V

### 成视频的大规模模型 #### 主流模型概述 当前,在成视频领域,扩散模型成为主流技术之一。这类模型通过迭代去噪过程从噪声中逐步构建出完整的视频内容[^3]。 #### AI框架与开源项目 1. **DALLE-2** DALLE-2 是由 OpenAI 开发的一个强大的多模态成模型,不仅擅长于静态片的成,还支持基于给定的一系列帧创建连贯的动画或短视频片段。尽管官方未完全开放源码,社区内存在多个仿制版本可供探索和实验。 2. **Make-A-Video** Make-A-Video 是 Meta 发布的一款专注于将单张或多张静止像转换成动态影像的产品级解决方案。该工具利用先进的神经网络结构实现了高质量的视频合成,且已经部分开源,允许开发者在其基础上进一步开发应用。 3. **Phenaki** Phenaki 作为另一个值得关注的研究成果,它能够在仅提供少量指导性提示的情况下成逼真的连续动作场景。此项目的独特之处在于其对于复杂时空关系的有效建模以及较低的数据需求特性,使得即使是在资源有限环境下也能高效运行。 4. **Text-to-video diffusion models (TVDiff)** TVDiff 提供了一种全新的视角来看待文本到视频的任务转化流程。不同于传统方法侧重于先成中间表示再映射至目标域的方式,TVDiff 将整个过程视为一个端到端的学习问题,从而简化了设计思路提高了最终产出的质量。 ```python import torch from diffusers import DiffusionPipeline pipeline = DiffusionPipeline.from_pretrained('model_name') video_frames = pipeline(prompt="描述文字").frames ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值