海量数据下以图搜图实现方案

最新推荐文章于 2024-08-02 11:22:40 发布

AI扑社

最新推荐文章于 2024-08-02 11:22:40 发布

阅读量2k

点赞数 1

分类专栏： AI资讯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_15603323/article/details/89405770

版权

本文介绍了以图搜图的实现原理，包括图片哈希值的生成和汉明距离计算。在海量数据场景下，选择了Elasticsearch作为存储数据库，并通过自定义插件实现快速检索和汉明距离计算，确保在几千万数量级图片下的高效搜索性能。

摘要由CSDN通过智能技术生成

来源：极链科技

作者：吴宏伟

以图搜图原理

图文无关

首先介绍一下以图搜图的实现原理，弄明白我们是怎样将一张图片转化为可以量化计算的哈希值。

我们知道图片本身是二进制数据，是一系列像素值的集合，一张彩色图片可以用[h,w,3]的三维数组来表示，要直接比较两个三维数组的相似度，非常困难，我们要对这个数组进行简化，以便于我们计算。

缩小尺寸

通常图片的h和w在800-1200之间，我们需要缩小图片的尺寸，具体缩小到多大，需要根据具体情况而定，既不损失过多信息，也能减小计算量

简化色彩

一般而言，图片色彩对我们比较相似度来说，不会有影响，所以将三通道转化为单通道

简化完之后，[h,w,3]的三维数组就变成h’*w’(h’和w’为缩小后的图片尺寸)个像素值，象素值取值范围为0-255之间的整数，继续简化成0/1

计算所有像素平均值
将每个像素的值与平均值进行比较，小于平均值标记为0，大于平均值标记为1

转化完之后，我们就得到一个h’*w’位的二进制数值，这个值就是我们能够直接比较的哈希值，通过计算两个哈希值的汉

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。