InstantID:一个悄然崛起的国产开源项目

ed08a39f3fcd83f71e6d361c059ba693.png

最近,一个来自小红书技术团队的 AI 开源项目 —— InstantID 杀疯了!

用户只需要上传一张照片,30 秒钟就能生成不同风格的写真照片,真的非常方便。

GitHub:https://github.com/InstantID/InstantID

短短几天,InstantID 在 GitHub 开源后,便斩获了 5000+ Star。 

59ff83e3920b3cf4c909aa435fe0c053.png

且连续一周霸榜 HuggingFace Space Trending 榜首~

a90bcbbb5038b055681c360f3c369940.png

该开源项目吸引了众多开发者上手,大家玩得很嗨!

模拟白宫主人从特朗普换成拜登的过程,也就是一瞬间。 

3ba54a10a4acc30e515c5e5ce6273c1f.gif

诗圣杜甫摇身一变,二维变三维。

81a25a4917d9144523ae695a1f4bb399.jpeg

图灵奖得主 Yann LeCun 也发来肯定。 

00e50d6e08bdff624d4921c680a5b2cd.png

这个项目到底有何神奇之处,竟然能被多个大佬持续关注。下面,我将从技术层面,给大家好好解析一下这个项目。

InstantID 是一个基于扩散模型的图像生成解决方案,能实现从单一参考图像到多样化风格化写真的快速生成。

它可以在不需要任何训练的情况下,根据一张人脸照片和一段文本提示,生成具有个性化风格和高保真度的图像。 

d62d8a5895a4c26b07bd922cdd49d660.png

如图所述, InstantID 方法主要包含三个关键组成部分:

  1. 将弱对齐的 CLIP 特征替换为强语义的人脸特征;

  1. 人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;

  1. 提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。

其核心就是一个名为 IdentityNet 的模块,它能够将人脸特征和人脸关键点与文本提示相结合,从而实现强语义和弱空间的条件控制。 

d0e7deace608d1b7cabb793ba8c2cadf.png

一张自拍 + 一张参考姿势图(可选)+ Prompt(可选) + 风格选择 (可选)= 你想要生成的 AI 写真

如何快速上手呢?Demo 演示一波:

  1. 上传带有人脸的图片。对于多人图像,InstantID 只会检测最大的脸部。请确保脸部不要太小,并且没有明显遮挡或模糊。

  1. (可选)上传另一张图像作为参考姿势。如果没有上传,InstantID 将使用第一张图像来提取姿势。如果在步骤 1 中使用了裁剪后的脸部,建议上传它以提取新的姿势。

  1. (可选)可以选择多个 ControlNet 模型来控制生成过程。默认设置是仅使用 IdentityNet。ControlNet 模型包括姿势骨架、精巧和深度。方便您可以调整每个 ControlNet 模型的强度以控制生成过程。

  1. (可选)输入文本 Prompt提示词。就像所有文生图应用中所做的那样。

  2. 点击 Submit 按钮开始定制写真与朋友分享定制写真,尽情享受吧!

非常惊喜的是,InstantID 可以作为一个可适配的插件,能够与流行的预训练文本到图像扩散模型(如 SD 1.5 和 SDXL)无缝集成。

此外,InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。加装饰、改发色、换套装,都毫无问题。

实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲,成本还低。

2a9621347f867563776bbbe9f3a4a9a9.png

InstantID 开源项目的出现,与传统的多图参考和繁琐调整过程形成鲜明对比。 

人像面部特征,保持得非常统一,比训练的 LoRA 好很多。

支持非常多的衍生玩法,比如 ID 插值、多风格合成、夸张表情定制、新春写真定制等等。

301638908546a84096e4d704b0362f73.png

这个 AI 项目我玩了几天,完全停不下来,感兴趣的同学,可以到 GitHub 上 Star 关注下。

论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds

  • 论文地址:https://arxiv.org/abs/2401.07519

  • GitHub 地址:https://github.com/InstantID/InstantID

  • 项目地址:https://instantid.github.io

  • Demo 体验:https://huggingface.co/spaces/InstantX/InstantID

 
 

f485a1a3c2502ed936d3adf3465a9699.jpeg

 
 
 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)

d80882bb9d8e3d357fa50398f93d8111.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值