1.Introduction
联合训练多主题定制,两个缺点,1.需要为每个主题组合学习单独的模型,主题数量增加,指数增加;2.不同的主题相互干扰。Cones2,利用一个表征来注册一个主题,并使得不同主题的任意组合成为可能,不需要训练模型。
将多主题定制分成两个部分:如何有效的表征一个主题和如何有效的结合不同的主题。给定一组主题及其照片(每个主题3-5张),首先将每个特定主题的特征绑定到一个可以灵活使用的插件,因此使用特定主题的图像微调模型的文本编码器部分,使得调整后的模型可以定制该特定主题。此外,提出了一种文本嵌入保留损失,这限制了调整后的文本编码器的输出与原始文本编码器的唯一区别在于针对特定主题的标记嵌入(Token embedding)。然后,计算调整后的文本编码器与原始文本编码器之间的平均差异,以导出residual token embedding。为了有效的结合不同主题,提出了一种布局引导方法来控制生成过程。预定义布局是先验知识,通过在crossatt