之前尝试模拟12306登陆时爬了大量的验证码图并将小图进行切割,有115368张验证码的小图,刚好可以试试使用dhash查找相似图的效果
被查找图为下图红色方框名称为1_67.jpg
耗时2分50秒,从11万张图中找到以下相似图
速度快,准确率高,不到50行的代码,第一次感受算法的魅力
总结现实步骤如下:
1、将图片缩放至9*8像素,即一共有8行,每行有9个像素
2、将缩放的图转为灰度图,每个像素由一个0到255的整数表示灰度
3、将每一行灰度值与第二个灰度值进行比较,如果大于则用1表示,否则用0表示,不同行间的灰度值不进行比较,比较后的结果可以得到由1、0组成的64个数值,该64个数值可以看作是该图片的指纹
4、将两张图的指纹进行比较,即将两个指纹相同位置的数值进行对比,如果相同则不计数,如不同则计数1,最终比较结果,如果计数小于5,即视为相同或相似的图片,如果大于10则视为两张不同的照片
参考原文章,我重写了代码,执行速度比原文章代码要快一些
from PIL import Image #导入pillow库下的image模块,主要用于图片缩放、图片灰度化、获取像素灰度值
def grayscale_Image(image,resize_width=9,resize_heith=8): #