python中定义图片位置,python – 检测较大图像中图像的位置

最新推荐文章于 2024-07-08 03:42:36 发布

刘兮mkq0.~~

最新推荐文章于 2024-07-08 03:42:36 发布

阅读量738

点赞数

文章标签： python中定义图片位置

本文介绍了一种快速定位目标图像的方法，通过窗口滑动计算相似度，利用归一化相关或L2范数，同时探讨了仿射不变量在宽基线立体匹配中的应用。重点介绍了兴趣点检测、描述符提取（如SIFT）和匹配过程，确保图像在不同尺度下的定位准确性。

摘要由CSDN通过智能技术生成

有一个快速而肮脏的解决方案,这只是将窗口滑过目标图像,并在每个位置计算一些相似度,然后选择具有最高相似度的位置.然后,您将相似度与阈值进行比较,如果分数高于阈值,则您总结图像在那里,那就是位置;如果分数低于阈值,则图像不在那里.

作为一个相似性度量,您可以使用归一化相关或平方差的和(也称为L2范数).正如人们所说,这不会涉及规模的变化.所以您也可以多次重新缩放原始图像,并使用每个缩放版本重复上述过程.根据输入图像的大小和可能的尺度范围,这可能足够好,并且易于实现.

一个正确的解决方案是使用仿射不变量.尝试查找“宽基线立体匹配”,人们在这种情况下看着这个问题.使用的方法通常是这样的：

预处理原始图像

>运行“兴趣点检测器”.这将在图像中找到容易本地化的几个点,例如角落.有很多探测器,称为“哈里斯 – 仿射”的探测器很好,很受欢迎(所以实现可能存在).另一个选择是使用高斯差分(DoG)检测器,它是为SIFT开发的,并且也很好.

>在每个兴趣点,提取一个小的子图像(例如30×30像素)

>对于每个子图像,计算“描述符”,该窗口中的图像内容的一些表示.同样,存在许多描述符.要查看的内容是描述符描述图像内容的方式(您希望两个描述符仅在相似的情况下才匹配)以及它是如何不变的(即使在缩放后也希望它相同).在你的情况下,我建议使用SIFT.它不像一些其他描述符那样不变,但可以很好地应对规模,在你的情况下,规模是唯一的变化.

在这个阶段结束时,你将有一套描述符.

测试(使用新的测试图像).

>首先,运行与步骤1相同的兴趣点检测器,并得到一组兴趣点.您计算每个点的相同描述符,如上所述.现在,您还有一组目标图像的描述符.>接下来,你会寻找匹配.理想情况下,对于原始图像的每个描述符,目标图像中将会有一些非常相似的描述符. (由于目标图像较大,所以还将存在“剩余”描述符,即与原始图像中的任何内容不对应的点).因此,如果足够的原始描述符与足够的相似性相匹配,那么您知道目标是那里.此外,由于描述符是位置特定的,您还将知道目标图像中原始图像的位置.