ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation
我们提出了一种插件方法 ViCo,用于快速和轻量级的个性化生成。具体来说,我们提出了一个图像注意模块来调节patch-wise视觉语义上的扩散过程。我们引入了一个基于注意力的对象掩码,它几乎没有来自注意力模块的成本。此外,我们设计了一个简单的正则化,基于文本-图像注意图的内在属性,以缓解常见的过拟合退化。与许多现有模型不同,我们的方法不微调原始扩散模型的任何参数。这允许更灵活和可转移的模型部署。仅使用光参数训练(扩散 U-Net 的 6%),我们的方法在定性和定量上都实现了与所有最先进模型相当或更好的性能。
复制链接