https://arxiv.org/pdf/2309.03549.pdf
https://mp.weixin.qq.com/s/pbSK4KOO2hqQU1-uwQzjBA
数据集:
BLIP-2、MiniGPT4 等多模态大语言模型,对Moments-In-Time、Kinetics-700 和 VideoLT等数据集进行自动标注;
Image-text datasets:平移缩放等操作,将高质量的图片转化为伪视频;
Short video classification datasets:Kinetics-700等动作类型的短视频数据集;用: BLIP-2等多模态的大模型,选取视频中是随机一帧来理解(例如问这个大模型,该图中发生了什么),作为提示词
Long video classification datasets:一些较长的视频,如VideoLT数据集,用MiniGPT-4等大模型,来先分类出哪些帧是可以剪出来用的,然后再理解这些帧。
具体操作为在图像的不同位置、按照不同的速度进行平移和缩放,从而为每张图像赋予独特的动态展现形式,模拟现实生活中移动摄像头来捕捉静止物体的效果。
去水印操作
评价指标:
定量:
IS 和FVD两种评价指标(都是通过Inception )
定性:
shows the comparisons between the video generation results of these methods
对比对象:Make-A-Video (Singer et al., 2023), Imagen Video (Ho et al., 2022)
模型结构:
对于Unet,每层都加入两个可训练的,包含时间维度的层,Temp-Conv是针对视频数据的三维卷积,Temp-Attn是时间维度上的注意力机制。
针对解码器TEMPORAL-AWARE DECODER FINE-TUNING:
平常的stable-diffusion,是图片的解码器,这样的话帧间还是有差别的,文章在解码器中间也加入了Temp-Conv,以提高帧间的连贯性。
一些细节:
针对长视频的生成LONGER VIDEO GENERATION:
Frame-level Noise Reversion:一批原始噪声,前一批的最后一个张噪声图,刚好是后面一批的第一张噪声图。并循环这样
Past-dependent Noise Sampling.:叠加之前的一些噪声
Denoising with Staged Guidance:用于引导不同片段之间的内容更加连贯,每个片段的前面帧,采用了上一个片段的最后帧的潜空间来合并。