照片聚类2014年最新方法——“Clustering by Composition”

原创于 2014-11-14 13:34:18 发布 · 2.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

图像处理专栏收录该内容

1 篇文章

订阅专栏

提出一种名为Clustering by Composition的方法，通过照片间的descriptor匹配和传播来发现图像类别。该方法利用照片内的局部特征进行匹配，并通过迭代传播提高匹配质量，最终通过归一化割实现图像聚类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《“Clustering by Composition”—Unsupervised Discovery of Image Categories》 PAMI 2014

1、首先对相册里的每一张照片，取N个descriptor；

2、对每一张照片Ii，针对里面每一个descriptor，去相册里剩余的照片里以均匀采样的方式随机取样一张照片；

3、再在被抽取的照片里随机抽取S个descriptor（当common region占到照片尺寸10%的时候，S=40就可以）；

4、再在这S个descriptor里找到和当前Ii里当前这个descriptor最匹配的一个descriptor，假设和a1暂时最匹配的是 b16，和a2最匹配的是b7，如下图；

5、再做propogation，即针对每一个点，看邻居都对应到哪里了。如a2对应到b7，则a2会建议左边邻居要不要考虑

下b7左边的b6，所以a1会在b6和b16里面选择一个最佳的匹配；

6、接下来，假设a1和b6比较匹配，a1又会在b6的周围邻居里面找找看有没有比b6更加适合它的，这样的过程会使

common region以不规则的方式生长，如下图；

7、针对每一张照片上每个descriptor都找到对应点后，就可以算照片两两之间的affinity，在这里用Bit-Saving来表示 affinity。

而计算两张照片间的相关度可以用p(R|Ref)/p(R|H0)来表示。分子是指由其中一张reference image提供当前 image 所需的某一个region R的概率。分母是指当前的region是随机产生的概率。

p(R|Ref)可以用两张对应照片里的对应区域的所有匹配descriptor的匹配误差来表示，如下。

而p(R|H0)可以用R里边所有descriptor随机产生的概率相乘起来得到。

而每一个p(di|H0)可以用在这个相册所有照片的所有descriptor组成的库D里找到它的概率来表示。

具体计算过程如下：将D做k-means分群，同一群里的点都用群中心来量化，量化误差就可以用来表示这个点的稀有性。

对于一些随机取到它的概率很高的点，就是它们在D里面会出现很多，所以它们在分群时可以自成一群，它们离群中心也近，所以量化误差小，上述概率就很大。而对于一些离群的独特的点，它们就不能自成一群，就会被分配到附近的群，但是还是离群中心很远，量化误差很大，上述概率很小。即不太可能随机产生。

根据香农定理，对一个随机变量进行编码所需的编码长度是-log p(x)。所以化解上式得到如下：

即affinity可以用相对于随机产生一个region，用reference image来产生region R，节省的bits数来表示。

8、得到两两之间的affinity matrix之后，如果I0可以由I1和I2组成，也可以用I3和I4组成，那在下一次迭代中，I3可以听从I0的建议以更高的概率采样到I1。这样就不用去算两两间所有的affinity，相反会得到比较稀疏的affinity，运算量会下降，时间会更快。

9、大概跑完几十次迭代后，就会收敛。最后做normalize-cut就可分群。

总结：算法的主要特色是composition和random。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。