一键换装神器爆火,老黄换上抱抱脸T恤,CEO本人:我被替代了,和他争CEO职位争不过...

西风 发自 凹非寺
量子位 | 公众号 QbitAI

笑不活,最新虚拟试穿神器被网友们玩坏了。

黄院士、马斯克、奥特曼、史密斯等一众大佬衣服集体被扒。

前有老黄卸下皮衣套上糖果包装袋:

e026a3f48477a2c0141492a023441cb6.png

后有奥特曼大秀花臂穿CUCCI:

f84e4bcff8d9eb1b4bf3f3c7b735330e.gif

再有老马变成了蛛蛛侠:

96d93a863114744a49ebc7f8537da105.png

好莱坞巨星史密斯也风格大变:

75703361c062846e7d6d36b1c470a123.png

但说回研究本身,确实正儿八经的研究。

e5c3e93fdf378e8f244f10ba7bdd1d42.gif

名为IDM–VTON,由来自韩国科学技术院和OMNIOUS.AI公司的研究团队基于扩散模型打造。

be18ac93e172010a297f29c5335710a8.png

目前官方放出了demo,大伙儿可以试玩,推理代码已开源。

除了开头所展示的,抱抱脸研究员也玩的不亦乐乎,给老黄换上了专属战袍。其CEO连忙转发打趣:

我被替代了,没法和他争CEO。

3f4e466c826b8ef9c78c5a638425ca1a.png

看热闹的网友也是感慨,经过这么多年,终于不用再担心自己“手残”了(AI帮你搞定)。

875a52b6a5771be77bd6d3b362d30bf5.png

来玩啊~

我们也赶紧上手体验了一把。demo整个页面是这样婶儿的:

9d9242b36327db260f7e80e7e070d7a5.png

操作起来也是非常简单。

首先上传人物图,可以手动或者自动选择要修改的区域。然后,上传要换的衣服。

f041b87c7967f7d689dc31cfbb3b97bf.png

直接点击Try-on,会自动生成掩模图和换装后的图:

d4f3b758a9c3f411c37c84019012dc87.png

上面这张自动生成的掩模把手也选进去了,所以最后生成的左手效果不好。

我们手动选取涂抹一下,同时人和衣服全部都用我们自己的图。

b5783b2e0db87959ebc473e0189e310e.png
a2f4bb851a03b57c77a81914f3219f0f.png

这次效果大伙儿觉得如何?

再来展示一波网友的试玩成品图。

DeepMind联合创始人苏莱曼穿上了微笑面具修格斯联名款T恤:

df1c9559ab43c5b5cd5ff9af391cb4c1.png

甚至不少网友真想要这件衣服。

7fab75cb4735f3bface712868ab97a3a.png

奥特曼再次被网友当成模特:

6067bed4e686f8000cb2819407ac374a.png

当然也有翻车的时候,比如马斯克穿的就是山寨CUCCI。

d1b7385d7a532b1f431a034820ccff16.png

看完效果后,接着来看IDM–VTON在技术上是如何实现的。

基于扩散模型

技术方面,IDM–VTON基于扩散模型,通过设计精细的注意力模块来提高服装图像的一致性,并生成真实的虚拟试穿图像。

模型架构大概包含三部分:

  • TryonNet:主UNet,处理人物图像。

  • IP-Adapter:图像提示适配器,编码服装图像的高级语义。

  • GarmentNet:并行UNet,提取服装的低级特征。

83254e5d8bcb97a73ca9f9ad21436190.png

在为UNet提供输入时,研究人员将人物图片的含噪声潜在特征、分割掩模、带掩蔽的图片和Densepose数据整合在一起。

他们还会为服装添加详细描述,例如[V]表示“短袖圆领T恤”。这个描述随后用作GarmentNet(例如,“一张[V]的照片”)和TryonNet(例如,“模特正在穿[V]”)的输入提示。

TryonNet和GarmentNet产生的中间特征进行了合并,随后传递至自我注意力层。研究人员只使用了来自TryonNet的输出的前半部分。这些输出与文本编码器和IP-Adapter的特征一起,通过交叉注意力层进行融合。

最终,研究人员对TryonNet和IP-Adapter模块进行了精细调整,并锁定了模型的其它部分。

实验阶段,他们使用VITON-HD数据集训练模型,并在VITON-HD、DressCode和内部收集的In-the-Wild数据集上进行评估。

IDM–VTON在定性和定量上都优于先前的方法。

b777dd8cdb717b80e4277a3bf9ab1105.png
6f6c5d1d75d0ee8e7c714691db5dbfcc.png
46e867376513716576d374a7ab15197b.png
3304302edd017385d76852a59cc6db23.png
819b52f7ddb3bcc2084b4a747624087b.png
cb0ac212848360fa8901255e96d96dc4.png

IDM-VTON可以生成真实的图像并保留服装的细粒度细节。

8036e29d7e3cbfa802762a6badb4001f.png

更多细节,感兴趣的家人们可以查看原论文。

项目链接:
[1]https://idm-vton.github.io/?continueFlag=589fb545dbbb123446456b65a635d849
[2]https://arxiv.org/abs/2403.05139
[3]https://huggingface.co/spaces/yisol/IDM-VTON?continueFlag=589fb545dbbb123446456b65a635d849
参考链接:
[1]https://twitter.com/multimodalart/status/1782508538213933192
[2]https://twitter.com/fffiloni/status/1783158082849108434
[3]https://twitter.com/ClementDelangue/status/1783179067803533577

—  —

点这里👇关注我,记得标星哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值