FaceChain风格广场发布：开源自定义人像写真风格LoRA模型训练，海量风格共享社区一键式调用，1张照片10秒钟生成风格化写真

最新推荐文章于 2024-07-29 06:00:00 发布

AI记忆

最新推荐文章于 2024-07-29 06:00:00 发布

阅读量1.8k

点赞数 28

分类专栏：深度学习论文与相关应用文章标签： AIGC FaceChain 写真风格 lora

本文链接：https://blog.csdn.net/sunbaigui/article/details/140475981

版权

深度学习论文与相关应用专栏收录该内容

100 篇文章 226 订阅

订阅专栏

一、引言：

AI写真技术已经逐渐成为一个热门的研究和应用领域。借助以Stable Diffusion为代表的文生图大模型及其微调技术，AI写真技术能够生成逼真、高质量的人物写真图片。FaceChain是一个可以用来生成个人写真的深度学习模型工具，内置了多种写真风格，用户仅需要提供一张照片即可10秒钟获得独属于自己的写真。FaceChain可实现兼具可控性与ID保持能力的无限风格写真与固定模板写真功能，同时对ControlNet和LoRA具有优秀的兼容能力。

为了进一步拓展写真风格的多样性和使用便捷性，在最新版本的FaceChain中，开源了人像写真风格LoRA模型的自定义训练和共享功能，通过将模型上传至风格广场的形式，使得海量写真风格实现共享社区一键式调用，走向风格化人像写真新纪元。

二、原理解析

AI写真的能力来源于以Stable Diffusion为代表的文生图大模型，输入一段文本或一系列提示词，输出对应的图像。由于大模型具有强大的泛化能力，因此可以通过在单一类型的数据和任务中进行微调的方式，在保持模型整体的文本跟随和图像生成能力的基础上，实现下游任务。具体而言，AI写真可以看作一种风格和人物可控的个性化文生图任务，因此可以通过对文生图大模型进行微调的方式实现。

我们考虑影响个人写真生成效果的主要因素：写真风格信息，以及用户人物信息。其中，人物信息具有相对接近且可解释性强的分布特性，可以通过人脸识别模型实现较为理想的类内聚集和类间分离并且具有较强泛化性的特征提取。因此，在最新版本的FaceChain中，使用免训练的AI写真框架。此时，微调任务调整为“生成指定人物ID的写真图片”，即将人物ID形象图片（人脸图片）作为额外的输入，输出具有与输入形象具有相同ID特征的写真图片。该模式可以将线下训练与线上推理彻底分离，用户使用时直接基于微调后的模型进行写真生成，仅需一张图片，无需大量数据和训练等待时间，10秒钟即可生成专属AI写真。

不同于人物信息，风格信息具有更加丰富的种类，相对而言难以获得具有强泛化性的特征表述。因此，我们使用“训练+生成”的两阶段模式，此时的微调任务为“生成固定风格的写真图片”，对应的训练数据为多张具有固定风格的写真图片。为降低训练成本，我们使用线下训练的风格LoRA模型以学习风格信息。LoRA是一种具有较少可训练参数的微调模型，在Stable Diffusion中，可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此，自定义风格写真的能力分为训练与推理两个阶段。训练阶段获取用于微调Stable Diffusion模型的风格图像与文本标签数据，训练得到自定义风格LoRA模型以及对应的风格提示词。该阶段内置了图像预处理、文本标注模型以及标签后处理方法实现图像与文本标签对的生成，同时也支持用户手动修改文本标签。风格提示词根据文本标签的高频词生成得到。推理阶段基于免训练的人物微调模型、风格LoRA模型以及风格提示词生成对应风格的人物写真图像。用户可以通过点选模型的方式进行一键式写真生成，也可以手动修改风格提示词、风格权重等超参进一步调整生成写真的效果。

三、功能体验

FaceChain自定义风格训练和推理的代码和模型目前已经在modelscope创空间上开源。FaceChain具有简单的交互式界面设计，只需上传风格训练图像以及简单的操作，就可以实现自定义写真风格训练和风格广场共享。同时，在FaceChain的无限风格写真功能中，也实现和风格广场的无缝连接和对应风格的一键式调用。另外，FaceChain自定义风格训练和推理的本地部署和运行版本也已经在github上开源，用户可以通过本地文件的方式同步自定义风格模型的训练和推理。

Modelscope创空间自定义风格训练：https://modelscope.cn/studios/CVstudio/FaceChain-style-training

Modelscope创空间自定义风格推理：https://modelscope.cn/studios/CVstudio/FaceChain-FACT

Github本地版本代码：https://github.com/modelscope/facechain

a.）自定义风格训练：

输入风格lora名称，上传训练图片，打标，输入风格触发词，即可训练对应风格并上传至风格广场

操作界面：

输出结果：

可手动修改标签：点击对应图片，修改当前标签并提交

b.）自定义风格推理：

在无限风格写真页面切换风格来源为风格广场，选择风格，上传人物形象，即可生成对应风格写真

操作界面：

输出结果：

可指定人物姿态：在无限风格写真基础上选择或上传人物姿态

输出结果：

AI记忆

关注

28
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
6
评论
FaceChain风格广场发布：开源自定义人像写真风格LoRA模型训练，海量风格共享社区一键式调用，1张照片10秒钟生成风格化写真

为了进一步拓展写真风格的多样性和使用便捷性，在最新版本的FaceChain中，开源了人像写真风格LoRA模型的自定义训练和共享功能，通过将模型上传至风格广场的形式，使得海量写真风格实现共享社区一键式调用，走向风格化人像写真新纪元。
复制链接

扫一扫