mysql 汉明距离检索_如何在数据库里优化 汉明距离 查询?

项目里需要一个搜索相似图片的功能,百度了一些dhash的算法,生成了16个长度的hash值,在mysql里这样查询:

SELECT pk, hash,

BIT_COUNT(   CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10) ) as hamming_distance

FROM image_hashes   HAVING hamming_distance < 4   ORDER BY hamming_distance ASC;

经测试,15W条数据,搜索需要很长时间。第二次速度会快些,有啥办法可以优化?

谢邀。

抱歉地说,这个我也没有做过,只是之前听说过汉明距离。15w数据,不是很多,但是用了

mysql

的函数,没办法创建索引。。。

大概搜了一下,有相同的问题。

可以参考mysql 图片汉明距离计算, 近40w的异或计算, 如何破

Hamming distance on binary strings in SQL

你可以试试mysql的内存表 MySQL内存表的特性与使用介绍

不好意思,没有“汉明距离”的相关经验。

如果只是15W数据的话,可以把数据加载到内存里缓存起来,然后在程序里运算,毕竟SQL并不擅长做这种事情。

仅从你的SQL来说,的确没有太大的优化空间,能想到的就只有以下几点:

hash

列用

char

代替

varchar

舍弃

ORDER BY hamming_distance ASC

,改为由程序排序

建议把DDL语句和EXPLAIN结果也发上来一并分析,不过最大的性能卡口应该是

BIT_COUNT(CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10)) as hamming_distance

,其实相当于全表扫描了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值