最近,腾讯的开源项目PhotoMaker发布了重磅更新——PhotoMaker V2!新版本功能更强大,能够在几秒内生成个性化的艺术风格写真,非常酷炫!
什么是PhotoMaker V2?
如果你还没听说过PhotoMaker,那可真是错过了一款神器!PhotoMaker V2通过堆叠ID嵌入技术,能够在几秒钟内完成个性化人物图像定制,完全不需要额外的LoRA训练。只需上传几张自己的照片,再配合提示词或参考图像,就能生成各种场景、风格、状态下的个人写真,轻松实现自定义!
它是怎么做到的?
PhotoMaker V2 的原理相当酷炫!它通过多张输入图片创建一个统一的 ID 嵌入表示,这些嵌入向量包含了人物的各种特征(如面部、发型、表情等)。接着,系统利用这个 ID 表示生成图像,确保人物特征的一致性。生成过程不仅快速、质量高,还能根据文字描述轻松生成个性化的照片,体验相当惊艳!
性能优化
新版本在保持高质量图像生成的同时,进一步提升了ID的真实性表现。现在,使用V100显卡,每张图像的生成时间从1分钟缩短到了14秒,速度提升得惊人,简直像飞一样快!
快速上手指南
好东西当然要分享!PhotoMaker V2 已经打包成了一键启动版,点击即可使用,再也不用担心复杂的环境配置问题,轻松上手,体验极佳。
电脑配置要求
-
Windows 10/11 64 位操作系统
-
8G显存以上英伟达显卡
-
CUDA >= 12.1
下载和使用教程
1.下载压缩包
(👆👆👆安全链接,放心点击)
2.解压文件:
解压后,最好不要有中文路径,双击“启动程序.exe”文件运行。
3.浏览器访问:
软件启动后会自动打开浏览器操作界面,界面如下所示。(如果不懂英文可以右键鼠标使用浏览器自带的翻译功能)
技术亮点
-
高效的个性化生成:PhotoMaker通过将任意数量的输入ID图像编码为堆叠ID嵌入,成功保留了ID信息。这种嵌入不仅全面封装了同一ID的各种特征,还具备整合不同ID特征的能力,为未来的集成应用提供了更多可能性。
-
面向ID的数据构建管道:研究团队开发了一套专门针对ID的数据构建管道,有效推动了PhotoMaker的训练过程。相比传统的微调方法,这种管道在测试时展现出更强的ID保留能力,同时大幅提升了生成速度,确保高质量的图像生成效果。
-
广泛的应用范围:PhotoMaker不仅可以生成逼真的照片,还能够通过输入艺术绘画、雕塑或老照片,将上个世纪甚至古代人物带到现代。同时,它还能在保留ID属性的基础上实现风格化处理,甚至通过替换简单的类词(如男人和女人),轻松改变性别和年龄。这为创作带来了更多的灵活性和可能性。
-
身份混合:当用户提供不同ID的图片作为输入时,PhotoMaker能够出色地整合这些不同ID的特征,生成一个全新的ID。用户可以通过控制输入图像池中各ID图片的百分比,或者通过提示加权的方法,来灵活调整特征合并的比例,实现个性化定制。
方法解析
PhotoMaker的方法主要分为以下几个关键步骤:
-
文本和图像编码:首先,通过文本编码器和图像编码器分别获取文本嵌入和图像嵌入。
-
融合嵌入:接下来,通过将相应的类嵌入(如男性和女性的类别嵌入)与每个图像嵌入进行合并,提取出融合嵌入。
-
堆叠ID嵌入:随后,将所有融合嵌入沿长度维度进行连接,形成一个堆叠的ID嵌入。
-
自适应合并:接下来,将堆叠的ID嵌入输入到所有交叉注意力层中,以自适应地在扩散模型中合并ID的内容。
在训练过程中,这种方法使用相同ID的图像并屏蔽背景,以确保模型专注于ID特征的学习。而在推理阶段,用户可以直接输入不同ID的图像,模型仍然能够保持背景的清晰和稳定,不会出现失真现象。这样不仅能有效创建新的ID,还能生成高质量、稳定的图像输出。
应用示例
-
将艺术品/老照片中的人物带入现实:PhotoMaker还能通过输入艺术绘画、雕塑或人物的旧照片,将上个世纪甚至古代的人物“带入”现代,仿佛为他们重新拍摄了一张当代照片。这种能力让过去的形象焕发新生,极具创意和时代感。
-
风格化:PhotoMaker不仅具备生成逼真人体照片的能力,还能够在保留ID属性的前提下,进行多种风格化处理。无论是现实主义风格,还是艺术化表现,都能轻松实现,同时确保人物的核心特征保持一致。这为用户带来了极大的创作灵活性。
-
更改年龄或性别:通过简单替换类词,PhotoMaker可以在保留原始身份特征的基础上,轻松实现性别和年龄的变化。这种灵活性允许用户在生成过程中,不改变核心ID的情况下探索不同的外貌和状态,非常实用且富有创意。
-
身份混合:用户可以通过控制输入图像池中不同ID的比例,来自定义生成的新ID。另外,还可以通过对与特定ID相关的图像嵌入乘以特定系数,进一步调整其在新ID中的整合比例。这种灵活的定制方式,使得PhotoMaker能够生成符合用户需求的个性化ID,并精细控制特征融合的程度。
比较与优势
与其他方法相比,PhotoMaker在高质量和多样化生成能力方面表现出显著优势。它不仅具备高度的可编辑性和高效的推理速度,还能保持出色的ID保真度。这些特点使其在个性化图像生成领域独具竞争力。有关更多详细的比较结果,可参考研究团队的论文。
总结
PhotoMaker的发布为个性化文本到图像生成领域带来了革命性的突破。它不仅显著提升了生成的效率和质量,还扩展了应用场景,使得生成的图像更加多样化和逼真。这项技术的应用前景十分广阔,无论是在艺术创作、历史人物重现,还是个性化头像生成等领域,都展现出巨大的潜力与创新价值。