V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data
本文介绍了一种名为V-LASIK的视频编辑技术,该技术能够从视频中一致性地移除人物所佩戴的眼镜,同时保留原始内容和人物身份。V-LASIK利用合成数据和预训练的扩散模型,解决了局部视频编辑中的挑战,尤其是在缺乏成对数据的情况下。
V-LASIK的核心方法包括三个阶段:数据生成、模型微调和视频编辑流程。首先,通过佩戴眼镜的人物视频生成合成数据对;然后,使用调整过的图像到图像扩散模型对这些数据进行微调,以生成不戴眼镜的真实视频帧;最后,结合运动先验模块,实现时间上连贯的视频编辑。
在实验部分,V-LASIK在定性和定量上都进行了评估,测试了编辑保真度、原始视频内容和身份的保留以及结果的真实性。与现有的视频编