DynamiCrafter:Animating open-domain images with video diffusion priors

Kun Li

已于 2024-08-30 16:31:51 修改

阅读量146

点赞数 4

分类专栏：图像视频生成大模型文章标签： stable diffusion video

于 2024-08-30 15:03:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012193416/article/details/141717814

版权

图像视频生成大模型专栏收录该内容

183 篇文章 10 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

1.Method

图像条件视频生成，

1.1 Image Dynamics from Video Diffusion Priors

1.1.1 文本对齐的上下文表征

文本嵌入通过clip构建，图像通过clip编码，主要代表语义层面的视觉内容，未能捕获图像的完整信息，为了提取更完整的信息，使用来自clip图像vit最后一层的全视觉标记，该token在条件图像生成时表现出了高保真度，为了促进与文本嵌入的对齐，即为了获得可以被去噪unet解释的上下文表征，利用一个轻量级网络P将视觉token转换为上下文表征，采用了多模态融合的Q-former架构。随后文本嵌入和上下文嵌入通过双cross attention与unet中间特征交互

了解本专栏

超级会员免费看

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DynamiCrafter:Animating open-domain images with video diffusion priors

文本嵌入通过clip构建，图像通过clip编码，主要代表语义层面的视觉内容，未能捕获图像的完整信息，为了提取更完整的信息，使用来自clip图像vit最后一层的全视觉标记，该token在条件图像生成时表现出了高保真度，为了促进与文本嵌入的对齐，即为了获得可以被去噪unet解释的上下文表征，利用一个轻量级网络P将视觉token转换为上下文表征，采用了多模态融合的Q-former架构。unet中间层与物体形状或姿态关联性更大，两端层和外观关联更大，希望图像特征将主要影响视频的外观，同时对形状施加较小的影响。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。