FACEMUG: A Multimodal Generative and Fusion Framework for Local Facial Editing (TVCG)2024

FACEMUG: A Multimodal Generative and Fusion Framework for Local Facial Editing (TVCG)

原文链接
视频介绍

【研究背景】
随着数字图像处理和移动计算技术的迅速发展,社交媒体和各种应用程序对个性化内容的需求日益增长。人脸编辑作为计算机图形和计算机视觉领域的一个重要研究方向,吸引了广泛关注。现有的人脸编辑技术虽然已取得显著成果,但在支持多模式的局部人脸编辑方面仍存在不足,尤其是在多次连续(增量)编辑后,图像的非目标编辑区域会被反复重新生成,导致无关区域受到反复变动,使得编辑质量大幅下降。
【工作介绍】
针对这一挑战,FACEMUG引入了一种新型多模态生成融合框架,专注于全局一致的局部人脸编辑。FACEMUG能够处理多种输入模态(包括草图、语义图、颜色图、示例图片、文本和属性标签),通过将这些模态综合到一个统一的生成潜在空间中,实现精细的语义操控,并保持未编辑部分的内容不变。
在这里插入图片描述
FACEMUG 在各种模态输入下的视觉表现。五种模态共有 32 种组合(子集)。FACEMUG 生成了高质量的编辑结果,并显示出与未编辑区域的高度全局一致性。
【核心技术优势】
多模态融合机制:通过创新的多模态聚合和风格融合模块,在潜在空间和特征空间中融合面部先验知识和多种模态,有效提高编辑图像的视觉质量和保真度。
自监督潜在空间变形算法:此算法能够自动校正编辑图像与给定潜在代码之间的面部姿态,有效传递编辑图像到给定潜在代码的面部姿态,无需依赖标注数据或面部姿态检测模型。
增强的属性多样性目标函数:在训练过程中模拟编辑过程,提升面部编辑能力,确保生成的面部特征响应多模态输入,同时与未编辑背景保持视觉一致性。
在这里插入图片描述使用FACEMUG 进行增量局部面部编辑示例。每一行:给定一个输入图像(第一列),FACEMUG 通过瑕疵去除、样例引导的面部风格转换、语义引导的属性编辑、草图引导的发型编辑、颜色引导的化妆和属性条件的语义编辑(例如性别、年龄和表情)来增量编辑面部图像。对于每一组,FACEMUG 仅在指导信息(左上)的指导下编辑蒙版区域(左下)以生成编辑后的图像(右)。
结果表明,FACEMUG不仅在编辑质量、灵活性和语义控制方面展现出卓越性能,还可广泛应用于各种实际场景,支持由多种模态(草图、语义图、颜色图、示例图像、文本和属性标签)引导的增量编辑情景。无论是进行特定部位的面部化妆、基于几何图形的面部操控,还是文本驱动的多模态人脸编辑,FACEMUG均能提供强大支持。
结果表明,FACEMUG不仅在编辑质量、灵活性和语义控制方面展现出卓越性能,还可广泛应用于各种实际场景,支持由多种模态(草图、语义图、颜色图、示例图像、文本和属性标签)引导的增量编辑情景。无论是进行特定部位的面部化妆、基于几何图形的面部操控,还是文本驱动的多模态人脸编辑,FACEMUG均能提供强大支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值