点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer111,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
CoCoCo:一种Text-Guided Video Inpainting,具有更好的一致性、更强的控制力和兼容性。目前已接入SAM2实现Video Inpaint Anything!
Video Inpainting是一个非常重要的计算机视觉任务,其具有广泛的应用,包括精细的视频编辑、视频恢复和视频去水印。然而,目前大多数现有的视频修补方法主要关注视觉内容的填补,而忽略了文本信息。基于文本引导的视频修补技术数量仍然非常有限,而且这些技术在保持视觉质量和语义表示能力方面依然面临着很多挑战。
为了解决这些问题,香港中文大学联合香港大学等研究机构提出了CoCoCo,一个基于文本指导的视频修补扩散框架。他们在以下方面改进了目前的视频修复模型:
1. 该论文在训练数据和模型结构方面进行了改进。具体来说,研究人员设计了一种Instance-aware Region Selection策略用于掩膜区域的采样,并开发了一种新颖的运动模块,该模块包含了一种efficient 3D Full Attention和Textual Cross Attention。
2. CoCoCo框架可以实现个性化的视频Inpainting,不需训练即可实现将图像生成模型组合进视频Inpainting中,允许用户在掩码在生成个性化内容。
3. 该论文目前已经开源并接入了SAM2,实现了Video Inpaint Anything功能。
论文地址:https://arxiv.org/pdf/2403.12035
项目主页:https://cococozibojia.github.io
代码链接:https://github.com/zibojia/COCOCO
方法介绍
更好的运动捕捉模块
回顾之前的视频生成模型和修复模型:
1. 在之前的研究中,存在着大量的视频扩散模型,例如AnimateDiff等视频生成模型,以及AVID等视频Inpainting模型,这些模型的运动模块中使用了两个相同的Temporal Attention来捕捉运动信息,而空间模块的参数被冻住不加训练。
尽管这种设计能够使得模型学习运动信息,但也带来了一些问题。
Temporal Attention无法关注空间区域。相比于SORA或者CogVideoX等模型的使用的3D Full Attention来讲,这种注意力机制确实大大降低了计算和显存开销,但是如果遇到复杂的动作将会无法精确的建模。
其次,这种缺陷在视频修复模型中被得到了放大。因为视频修复模型不仅需要关注运动信息,还需要和视频帧的unmasked region保持一致。
2. 运动模块并没有融入文本指导,从而在运动生成过程中忽视了关键的文本线索。
解决方法
为了解决这些问题,研究者在Temporal Attention之后插入两个注意机制,包括一个Efficient Damped Global Attention以捕捉全局运动信息,以及一个Textual Cross Attention旨在文本提示的指导下学习运动。
具体而言,Efficient Damped Global Attention首先通过将空间维度的特征进行压缩,得到更短的embedding,在做self-attention的操作中大大降低了计算开销和显存用量,同时还能够使得模型能够关注所有整个视频的信息。为了和输入保持一致,研究者们将输出进行插值到原先的大小,并利用残差将其和之前的输入相加。
对于之前的模型而言,Textual Cross Attention一般存在用于生成图像的空间模块中,在训练中被冻结而无法更新参数。这样做导致无法接收到运动信息。基于以上的问题,研究者在运动模块中也插入一个Textual Cross Attention用来建模运动信息,增强文本控制力。
更合理的训练数据生成
目前的已有的基于文本的视频补全方法忽略了一点:使用随机的mask训练无法精准的控制文本和mask区域的一一对应。
基于以上的发现,该文章采用GroundingDINO将视频中每一帧的物体都检测出来,可以又快又好的得到一个文本以及其对应的视频中的区域。研究者们将以上的策略命名为区域选择策略。
具体而言,区域选择策略包括两个阶段:
在第一帧中进行实例检测,以及在第一帧和其余帧之间建立区域关联。为了将文本提示中的每个词或短语与图像中的相应区域对接,使用了GroundingDINO 检测第一帧并获取带有边界框的返回短语。然后,使用TokenSpan来强制检测与给定短语相关的边界框。这一操作确保了不会为单一对象生成不同的短语。通过这种方式,可以将其余帧中的区域与第一阶段出现的词或短语相关联。
在训练阶段,将以不同的概率从三种类型的数据中随机采样,包括具有精确掩膜的视频、具有随机掩膜的视频和没有提示的视频。
个性化视频补全
在此之前还没有工作关注如何在视频掩膜区域中来制作个性化内容。研究者提出一种方法,无需训练就可以利用已有的图像LoRA,在视频区域中定制用户自己的内容。
定制化视频目前已经非常成熟:在视频中插入图像的LoRA就可以定制生成。与定制化生成内容不同,定制个性化Inpainting内容面临着一个难题,即没有足够个性化的图像Inpainting的LoRA。为了解决这个问题,研究者们利用task vector思想来合成个性化图像inpainting模型。
研究者们用代表图像模型(SD1.5),图像Inpainting模型为,个性化的图像模型为。研究者们将看作具有个性化生成能力的任务向量,将看作具有图像补全能力的任务向量,然后将两个向量进行混合,新向量就具有同时补全和个性化生成的能力。研究者们将新的任务向量和原有的图像模型以及视频补全模型进行混合,发现其可以在掩膜区域内创造个性化内容。
实验
Video Inpaint Anything
研究者们还接入了目前火爆的SAM2,根据SAM2的特性,开发出Video Inpaint Anything,用户可以点击某个区域进行追踪,然后输入prompt进行任意区域的补全。
定性和定量实验
研究者们在实验中从WebVid-10M的验证集中随机选择了1000个视频,并生成了掩膜和提示以测试模型的修补能力。
定量比较。他们使用CLIP Score来评估不同方法的文本对齐情况,使用L1距离来测量背景保持度,以及在特征空间中使用余弦相似度来评估连续帧之间的运动平滑性。如表1所示,其模型在背景保持度和时间一致性方面优于其他方法,并且在时间一致性方面表现也最好,生成了更为可信的修补视频。关于CLIP Score,CoCoCo在CLIP分数上为24.9,显著超过VideoComposer,展示了其在运动捕捉模块中实例感知区域选择策略和文本交叉注意力的有效性。
定性结果。该文章进行了User Study,将他们的方法与基准方法在四个方面进行了比较:视觉质量、文本对齐、时间一致性和背景保持。如表1所示,其在这些方面尤其在时间一致性和背景保持方面始终排名最高。
消融实验。他们进行了消融研究以评估每个组件的有效性,使用了四种不同的设置。第一种设置应用了随机掩膜选择并在运动块中堆叠了两个时间层。第二种设置添加了实例感知区域选择。第三种设置评估了额外的时间注意层是否会提高性能。最后一种设置测试了性能提升是否与文本交叉注意力无关。从表2中可以看到,使用实例感知区域选择可以显著提高CLIP分数,从21.6增加到23.6,添加Damped Global Attention可以显著提高背景保持,从7.9改善到6.2。使用这两种技术可以明显增强时间一致性,从96.3提高到97.2。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看