FACEMUG: A Multimodal Generative and Fusion Framework for Local Facial Editing (TVCG)
【研究背景】
随着数字图像处理和移动计算技术的迅速发展,社交媒体和各种应用程序对个性化内容的需求日益增长。人脸编辑作为计算机图形和计算机视觉领域的一个重要研究方向,吸引了广泛关注。现有的人脸编辑技术虽然已取得显著成果,但在支持多模式的局部人脸编辑方面仍存在不足,尤其是在多次连续(增量)编辑后,图像的非目标编辑区域会被反复重新生成,导致无关区域受到反复变动,使得编辑质量大幅下降。
【工作介绍】
针对这一挑战,FACEMUG引入了一种新型多模态生成融合框架,专注于全局一致的局部人脸编辑。FACEMUG能够处理多种输入模态(包括草图、语义图、颜色图、示例图片、文本和属性标签),通过将这些模态综合到一个统一的生成潜在空间中,实现精细的语义操控,并保持未编辑部分的内容不变。
FACEMUG 在各种模态输入下的视