论文作者:Dingkun Yan,Xinrui Wang,Yusuke Iwasawa,Yutaka Matsuo,Suguru Saito,Jiaxian Guo
作者单位:Institute of Science Tokyo;University of Tokyo;
论文链接:http://arxiv.org/abs/2504.06895v1
内容简介:
1)方向:草图上色
2)应用:草图上色
3)背景:现有的大部分草图上色方法依赖于训练时使用的草图、参考图像和真实标签的三元组,这些图像在语义和空间上是高度一致的。然而,真实世界的参考图像和草图经常存在较大的不对齐,这导致了数据分布的差异,并在推理过程中产生过拟合现象,从而引发空间伪影和上色质量的显著下降,限制了当前方法的广泛应用。
4)方法:为了解决这一问题,本文提出了一种新的工作流,动态地调整“载体”——一种在参考图像和草图之间传递信息的潜在表示。具体来说,针对空间错位伪影,采用了带有空间掩码的分割跨注意力机制,使参考信息能够在扩散过程中按区域注入;为了缓解草图语义细节的缺失,使用专门的背景和风格编码器在潜在特征空间中传递详细的参考信息,从而实现更好的空间控制和更丰富的细节合成。此外,提出了角色掩码合并和背景漂白的预处理步骤,以改善前景与背景的融合及背景的生成。
5)结果:通过广泛的定性和定量评估,包括用户研究,证明了所提方法相较于现有方法具有优越的性能。消融实验进一步验证了每个提出组件的有效性。