随着公众对人工图像生成模型的兴趣日益增加,计算机视觉领域的研究人员开发了多种深度学习实现的模型,如Stable Diffusion、Dall.E、Imagen等。这些模型被用于各种目的,像生成个人头像、网站模板以及辅助平面设计等。如今,大多数用于图像生成的模型都是扩散模型。简单来说,扩散模型是一种概率模型,它接收一个包含100%高斯噪声的矩阵,然后逐步从这个矩阵中去除噪声,最终生成与训练数据匹配的合理图像。
文本反转(Textual Inversion)
该项目的作者想要创建一个能学习新主题或对象(在该模型中称为“概念”)的图像生成模型,以影响图像生成过程。其核心思想是,如果模型能轻松快速地掌握这些新概念(无需数天的模型训练),用户就能基于这些概念轻松生成新图像,例如“概念”骑自行车的图像。模型能够理解“概念”是什么,并生成语义上与提示相匹配的图像。
具体实现方式是,给定一组图像和一个文本提示(即字符串),首先将字符串转换为一组标记(数值),然后每个标记被其自身的嵌入向量替换,再输入到预训练模型中。作者的目标是“找到代表新的、特定概念的新嵌入向量”。
应用场景
- 风格迁移&#x