【NeurIPS 2023】多模态联合视频生成大模型CoDi

CoDi是一种多模态联合视频生成的大模型,通过桥接对齐和潜在对齐策略,实现了从任何输入模态生成语言、图像、视频或音频等输出模态的能力。它通过单个扩散模型的训练和跨模态环境编码器的对齐,解决了数据和计算资源的挑战,允许灵活、同步的多模态生成。这种方法减少了训练目标,使得生成任何模态组合成为可能。
摘要由CSDN通过智能技术生成

Diffusion Models视频生成-博客汇总

前言:目前视频生成的大部分工作都是只能生成无声音的视频,距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型,可以同时生成带有音频的视频,距离真正的视频生成更近了一步。相信在不远的将来,可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。

目录

贡献概述

方法详解

任意模态生成的难题

整体结构:桥接对齐+潜在对齐

组合多种条件方法

第一阶段:单个扩散模型训练

第二阶段:基于潜在对齐的联合多模态生成

论文和代码

个人感悟


贡献概述

能够从输入模态的任何组合中生成语言、图像、视频或音频等输出模态的任何组合,CoDi 可以并行生成多种模式,其输

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值