本文是腾讯实验室挂在ArXiv上的文章
GitHub地址:
一、Introduction
近年来,大型文本到图像扩散模型展现了强大的生成能力,创造出高保真图像,但生成所需的文本提示往往复杂且工程量大。为了解决这一问题,文本提示的替代方法之一是使用图像提示,因为图像胜过千言万语。现有的直接微调预训练模型的方法虽然有效,但需要大量计算资源,且不兼容其他基础模型、文本提示和结构控制。
本文是腾讯实验室挂在ArXiv上的文章
GitHub地址:
近年来,大型文本到图像扩散模型展现了强大的生成能力,创造出高保真图像,但生成所需的文本提示往往复杂且工程量大。为了解决这一问题,文本提示的替代方法之一是使用图像提示,因为图像胜过千言万语。现有的直接微调预训练模型的方法虽然有效,但需要大量计算资源,且不兼容其他基础模型、文本提示和结构控制。