DIFT：Emergent Correspondence from Image Diffusion # 论文阅读

奔跑的汉堡包

于 2024-05-13 22:00:16 发布

阅读量1.1k

点赞数 4

CC 4.0 BY-SA版权

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29679623/article/details/138637366

URL

https://arxiv.org/pdf/2306.03881
主页：https://diffusionfeatures.github.io/
代码：https://github.com/Tsingularity/dift

TD;DR

23 年 6月 cornell 大学的文章，任务是做图片的特征匹配（关联），特别是局部的特征与其他图片中特征的匹配。文章提出的方法不需要任何额外的 finetune，训练也不需要用到带有标签的数据。最终的精度要明显优于 DINO 和 openclip，同时也不弱于已有的监督方法。

考虑到 diffusion model 的图片编辑能力，自然可以想到其实 diffusion model 是有图片特征匹配的能力的，否则不可能准确的把某一个主体变成另外一个主体。所以作者用 diffusion 探索了一种图像特征匹配的方法。

在这里插入图片描述

Model & Method

在这里插入图片描述

整个过程最重要的是拿到每张图片的 Diffusion feature。具体的做法是对带匹配的图片按照前向过程加噪到时间 t，然后送到 diffusion 里面预测噪声，这个过程会得到想要的 feature。
为了保证稳定性，作者会改变 random seed 的到多次噪声，然后用多次的匹配结果取平均值。

关于加噪到时间 t 具体要加到哪一步，作者表示如果是不同的物体建议加噪到比较大的数值，因为比较大时间 t 的 f

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。