ReuseAndDiffuse笔记

无名份的浪漫2018

已于 2023-11-28 15:22:27 修改

阅读量258

点赞数

分类专栏： AIGC 文章标签：人工智能 AIGC

于 2023-10-31 20:52:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pc9803/article/details/134131805

版权

AIGC 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

https://arxiv.org/pdf/2309.03549.pdf

https://mp.weixin.qq.com/s/pbSK4KOO2hqQU1-uwQzjBA

数据集：

BLIP-2、MiniGPT4 等多模态大语言模型,对Moments-In-Time、Kinetics-700 和 VideoLT等数据集进行自动标注；

Image-text datasets：平移缩放等操作，将高质量的图片转化为伪视频；

Short video classification datasets：Kinetics-700等动作类型的短视频数据集；用: BLIP-2等多模态的大模型，选取视频中是随机一帧来理解（例如问这个大模型，该图中发生了什么），作为提示词

Long video classification datasets：一些较长的视频，如VideoLT数据集，用MiniGPT-4等大模型，来先分类出哪些帧是可以剪出来用的，然后再理解这些帧。

具体操作为在图像的不同位置、按照不同的速度进行平移和缩放，从而为每张图像赋予独特的动态展现形式，模拟现实生活中移动摄像头来捕捉静止物体的效果。

去水印操作

评价指标：

定量：

IS 和FVD两种评价指标（都是通过Inception ）

定性：

shows the comparisons between the video generation results of these methods

对比对象：Make-A-Video (Singer et al., 2023), Imagen Video (Ho et al., 2022)

模型结构：

对于Unet，每层都加入两个可训练的，包含时间维度的层，Temp-Conv是针对视频数据的三维卷积，Temp-Attn是时间维度上的注意力机制。

针对解码器TEMPORAL-AWARE DECODER FINE-TUNING：

平常的stable-diffusion，是图片的解码器，这样的话帧间还是有差别的，文章在解码器中间也加入了Temp-Conv，以提高帧间的连贯性。

一些细节：

针对长视频的生成LONGER VIDEO GENERATION：

Frame-level Noise Reversion：一批原始噪声，前一批的最后一个张噪声图，刚好是后面一批的第一张噪声图。并循环这样

Past-dependent Noise Sampling.：叠加之前的一些噪声

Denoising with Staged Guidance：用于引导不同片段之间的内容更加连贯，每个片段的前面帧，采用了上一个片段的最后帧的潜空间来合并。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。