python中文相似度_计算图像相似度——《Python也可以》之一

最新推荐文章于 2021-01-28 09:59:59 发布

weixin_39866419

最新推荐文章于 2021-01-28 09:59:59 发布

阅读量199

点赞数

文章标签： python中文相似度

以本文就直接使用，没有再作降维处理了。

6 def make_regalur_image(img, size = (256, 256)):

7 return img.resize(size).convert('RGB')

转化为规则图像之后，可以调用 img.histogram() 方法获得直方图数据，如上文两图的直方图如下：

得到规则图像之后，图像的相似度计算就转化为直方图的距离计算了，本文依照如下公式进行直方图相似度的定量度量：

Sim(G,S)=，其中G,S为直方图，N 为颜色空间样点数

转换为相应的 Python 代码如下：

19 def hist_similar(lh, rh):

20 assert len(lh) == len(rh)

21 return sum(1 - (0 if l == r else float(abs(l - r))/max(l, r)) for l, r in zip(lh, rh))/len(lh)

22

23 def calc_similar(li, ri):

24 return hist_similar(li.histogram(), ri.histogram())

短短十行代码不到就完成了图片相似度的计算，再加上从硬盘读取图像的函数和测试代码，也不过二十行上下：

28 def calc_similar_by_path(lf, rf):

29 li, ri = make_regalur_image(Image.open(lf)), make_regalur_image(Image.open(rf))

30 return calc_similar(li, ri)

31

32 if __name__ == '__main__':

33 path = r'test/TEST%d/%d.JPG'

34 for i in xrange(1, 7):

35 print 'test_case_%d: %.3f%%'%(i, calc_similar_by_path('test/TEST%d/%d.JPG'%(i, 1), 'test/TEST%d/%d.JPG'%(i, 2))*100)

那么这样做的效果到底怎么样呢？且来看看测试结果（测试用例和代码请猛击这里下载）：

test_case_1: 63.322%

test_case_2: 66.950%

test_case_3: 51.990%

test_case_4: 70.401%

test_case_5: 32.755%

test_case_6: 42.203%

结合我们肉眼对测试用例的观察，这个程序工作得还算可以。不过 test_case_4 就暴露了直方图的缺点：它只是图像中颜色的全局分布的描述，无法描述颜色的局部分布和色彩所处的位置。test_case_4 的规则图如下：

可以看到它们的色彩局部分布有相当大的不同，但事实上它们的全局直方图相当相似：

虽然从直方图来看两图是极其相似的，但上述算法计算出相似度为70.4%的结果肯定是不可接受的。那么，怎么样才能克服直方图的缺点呢？答案是把规则图像分块，再对相应的小块进行相似度计算，最后根据各小块的平均相似度来反映整个图片的相似度。在实验中，我们把规则图像分为 4x4 块，每块的分辨率为 64x64：

分割图像的代码为：

9 def split_image(img, part_size = (64, 64)):

10 w, h = img.size

11 pw, ph = part_size

12

13 assert w % pw == h % ph == 0

14

15 return [img.crop((i, j, i+pw, j+ph)).copy() /

16 for i in xrange(0, w, pw) /

17 for j in xrange(0, h, ph)]

相应地，把计算相似图的函数calc_similar()修改为：

23 def calc_similar(li, ri):

24 # return hist_similar(li.histogram(), ri.histogram())

25 return sum(hist_similar(l.histogram(), r.histogram()) for l, r in zip(split_image(li), split_image(ri))) / 16.0

进行这样的改进后，算法已经能够在一

weixin_39866419

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中文相似度_计算图像相似度——《Python也可以》之一

以本文就直接使用，没有再作降维处理了。6 def make_regalur_image(img, size = (256, 256)):7 return img.resize(size).convert('RGB')转化为规则图像之后，可以调用 img.histogram() 方法获得直方图数据，如上文两图的直方图如下：得到规则图像之后，图像的相似度计算就转化为直方图的距离计算了，本文依照如下公式...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。