图像去重，4 行代码就能实现，你值得拥有imagededup

最新推荐文章于 2024-01-01 10:01:56 发布

我爱计算机视觉

最新推荐文章于 2024-01-01 10:01:56 发布

阅读量2.1k

点赞数 2

本文链接：https://blog.csdn.net/moxibingdao/article/details/106667244

版权

点击我爱计算机视觉标星，更快获取CVML新技术

现实中我们经常需要用到图像去重，比如为了扩充人脸图像，可以在百度、Google通过关键词下载大量人脸图像，但这些图像可能存在重复，在合并时需要去重。

这里的重复，是指图像内容完全一样，或者有少量的尺度、位移、色彩、亮度变化，或者是添加了少量其他内容等。

当然，我们可以使用类似SIFT图像匹配的方式实现，但这是很慢的。

考虑大规模图像检索去重，一般的流程是全局特征提取+特征hash+二值特征比较。

这里的全局特征提取，可以是直接在图像上进行小波变换、Gabor变换等，也可以是提取图像局部特征（如SIFT）再使用类似VLAD算法特征聚合，或者是直接提取CNN特征。

来自德国商品比较服务商Idealo开源的imagededup（图像去重的英文），是我们快速实现功能的首选。

开源地址：

https://github.com/idealo/imagededup

该库于今年4月份开源，已经有1600+颗星，最近两天还冲上了Github趋势榜。

可以使用 pip 直接安装：

pip install imagededup

仅需要 4 行代码即可实现图像去重：

from imagededup.methods import PHash
phasher = PHash()


# 生成图像目录中所有图像的二值hash编码
encodings = phasher.encode_images(image_dir='path/to/image/directory')


# 对已编码图像寻找重复图像
duplicates = phasher.find_duplicates(encoding_map=encodings)


# 给定一幅图像，显示与其重复的图像
from imagededup.utils import plot_duplicates
plot_duplicates(image_dir='path/to/image/directory',
                duplicate_map=duplicates,
                filename='ukbench00120.jpg')

实际上核心代码就 2 行。

显示结果如下：