前一阵子把SIFT算法再仔细研究了一下,然后把里面的重点难点都查了查,自认为已经吃的比较透了。
下面把自己认为比较难以理解的地方列出来给大家,如果有错误,欢迎指正。
1、首先说尺度,我认为一个物体,只有在合适的尺度的观察下才有意义。比如一个苹果,放大看就是一个分子,缩小了看就是一个小点。这个的尺度可以单纯的理解为尺寸大小。如果目标是一个不明物体,为了能以很好的观察到它,一个简单的方法是观察它在不同尺度下的形态,选择最合适的那个尺度。由于尺度极其重要,计算机视觉的专家们决定模仿上述,对一张图片进行处理,生成一个受单个参数(尺度)影响的集合。随着尺度越来越大,图片的具体细节越来越少。而高斯卷积核被认为是唯一的线性核,随着σ越大,图片就越模糊(这里的知识点还一直吃不透)。而SIFT由于采用了降采样生成金字塔结构,我觉得SIFT中的尺度可以分为相对尺度和绝对尺度。相对尺度即每一组之间的尺度,属于同一分辨率下比较。而绝对尺度则由σ和图片分辨率共同决定。具体后面还会提到。
2、再从频谱的角度来看SIFT所构建的高斯金字塔。高斯滤波属于低通滤波器。如果把一张图片看成是无限带宽的话,先对它进行σ=σ0的滤波,把生成的图片(即高斯金字塔的第一个