方向梯度直方图（Histogram Of Gradient）详解

最新推荐文章于 2023-04-24 18:38:01 发布

墨墨无文

最新推荐文章于 2023-04-24 18:38:01 发布

阅读量6k

点赞数 17

分类专栏：数字图像处理

原文链接：https://blog.csdn.net/passball/article/details/82254256

版权

数字图像处理专栏收录该内容

5 篇文章 1 订阅

订阅专栏

特征描述子(Feature Descriptor)

特征描述子就是图像的表示，抽取了有用的信息，丢掉了不相关的信息。通常特征描述子会把一个w*h*3(宽高3，3个channel)的图像转换成一个长度为n的向量/矩阵。比如一副64*128*3的图像，经过转换后输出的图像向量长度可以是3780。

什么样子的特征是有用的呢？假设我们想要预测一张图片里面衣服上面的扣子，扣子通常是圆的，而且上面有几个洞，那你就可以用边缘检测(edge detector)，把图片变成只有边缘的图像，然后就可以很容易的分辨了，那么对于这张图边缘信息就是有用的，颜色信息就是没有用的。而且好的特征应该能够区分纽扣和其它圆形的东西的区别。

方向梯度直方图(HOG)中，梯度的方向分布被用作特征。沿着一张图片X和Y轴的方向上的梯度是很有用的，因为在边缘和角点的梯度值是很大的，我们知道边缘和角点包含了很多物体的形状信息。（HOG特征描述子可以不局限于一个长度，也可以用很多其他的长度，这里只记录一种计算方法。）

怎么计算方向梯度直方图呢？

我们会先用图像的一个patch来解释。

第一步：预处理

Patch可以是任意的尺寸，但是有一个固定的比例，比如当patch长宽比1:2，那patch大小可以是100*200, 128*256或者1000*2000，但不可以是101*205。

这里有张图是720*475的，我们选100*200大小的patch来计算HOG特征，把这个patch从图片里面抠出来，然后再把大小调整成64*128。

第二步：计算梯度图像

首先我们计算水平和垂直方向的梯度，再来计算梯度的直方图。可以用下面的两个kernel来计算，也可以直接用OpenCV里面的kernel大小为1的Sobel算子来计算。

horizontal_vertical_gradient_kernel （水平和垂直梯度）

调用OpenCV代码如下：

// C++ gradient calculation.
// Read image
Mat img = imread("bolt.png");
img.convertTo(img, CV_32F, 1/255.0);

// Calculate gradients gx, gy
Mat gx, gy;
Sobel(img, gx, CV_32F, 1, 0, 1);
Sobel(img, gy, CV_32F, 0, 1, 1);

# Python gradient calculation

# Read imageim = cv2.imread('bolt.png')
im = np.float32(im) / 255.0

# Calculate gradient
gx = cv2.Sobel(img, cv2.CV_32F, 1, 0, ksize=1)
gy = cv2.Sobel(img, cv2.CV_32F, 0, 1, ksize=1)

接着，用下面的公式来计算梯度的幅值g和方向theta:

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

gradient_direction_formula（梯度方向计算）

可以用OpenCV的cartToPolar函数来计算：

// C++ Calculate gradient magnitude and direction (in degrees)
Mat mag, angle;
cartToPolar(gx, gy, mag, angle, 1);

# Python Calculate gradient magnitude and direction ( in degrees )
mag, angle = cv2.cartToPolar(gx, gy, angleInDegrees=True)

计算得到的gradient图如下：

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

左边：x轴的梯度绝对值中间：y轴的梯度绝对值右边：梯度幅值

从上面的图像中可以看到x轴方向的梯度主要凸显了垂直方向的线条，y轴方向的梯度凸显了水平方向的梯度，梯度幅值凸显了像素值有剧烈变化的地方。(注意：图像的原点是图片的左上角，x轴是水平的，y轴是垂直的)

图像的梯度去掉了很多不必要的信息(比如不变的背景色)，加重了轮廓。换句话说，你可以从梯度的图像中轻而易举的发现有个人。在每个像素点，都有一个幅值(magnitude)和方向，对于有颜色的图片，会在3个channel上都计算梯度。那么相应的幅值就是3个channel上最大的幅值，角度(方向)是最大幅值所对应的角。

第三步：在8*8的网格中计算梯度直方图

在这一步，我们先把整个图像划分为若干个8x8的小单元，称为cell，并计算每个cell的梯度直方图。这个cell的尺寸也可以是其他值，根据具体的特征而定。

为什么我们要把图像分成若干个8x8的小单元？

这是因为对于一整张梯度图，其中的有效特征是非常稀疏的，不但运算量大，而且效果可能还不好。于是我们就使用特征描述符来表示一个更紧凑（compact）的特征。

一个8*8的图像有8*8*3=192个像素值（彩色图有3个channel），每个像素的梯度包括两个值(幅值magnitude和方向direction，magnitude取3个channel中最大值，然后direction取最大magnitude值对应的direction值)，因此一个8x8的小单元（cell）就包含了8*8*2=128个值，因为每个像素包括梯度的大小和方向。

现在我们要把这个8x8的小单元用长度为9的数组来表示，这个数组就是梯度直方图。这种表示方法不仅使得特征更加紧凑，而且对单个像素值的变化不敏感，也就是能够抗噪声干扰。

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

这个patch的大小是64*128,把它分割成若干个8*8的cell，那么一共有(64/8)*(128/8) = 8*16=128个网格，对于64*128的这幅patch来说，8*8的网格已经足够大来表示有趣的特征比如脸，头等等。

直方图是有9个bin的向量，代表的是角度0,20,40,60.....160。

我们先来看看每个8*8的cell的梯度都是什么样子:

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

中间这个图的箭头是梯度的方向，长度是梯度的大小，可以发现箭头的指向方向是像素强度变化方向，幅值是强度变化的大小。

右边的梯度方向矩阵中可以看到角度是0-180度，不是0-360度，这种被称之为"无符号"梯度("unsigned" gradients)，因为一个梯度和它的负数是用同一个数字表示的，也就是说一个梯度的箭头以及它旋转180度之后的箭头方向被认为是一样的。那为什么不用0-360度的表示呢？在事件中发现unsigned gradients比signed gradients在行人检测任务中效果更好。一些HOG的实现中可以让你指定signed gradients。

下一步就是为这些8*8的网格创建直方图，直方图包含了9个bin来对应0,20,40,...160这些角度。

下面这张图解释了这个过程。我们用了上一张图里面的那个网格的梯度幅值和方向。根据方向选择用哪个bin, 根据幅值来确定这个bin的大小。先来看蓝色圆圈圈出来的像素点，它的角度是80，幅值是2，所以它在第五个bin里面加了2，再来看红色的圈圆圈圈出来的像素点，它的角度是10，幅值是4，因为角度10介于0-20度的中间(正好一半)，所以把幅值一分为二地放到0和20两个bin里面去。

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

这里有个细节要注意，如果一个角度大于160度，也就是在160-180度之间，我们知道这里角度0，180度是一样的，所以在下面这个例子里，像素的角度为165度的时候，要把幅值按照比例放到0和160的bin里面去。

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

把这8*8的cell里面所有的像素点都分别加到这9个bin里面去，就构建了一个9-bin的直方图，上面的网格对应的直方图如下:

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

可以看到直方图中，0度和160附近有很大的权重，说明了大多数像素的梯度向上或者向下，也就是这个cell是个横向边缘。

现在我们就可以用这9个数的梯度直方图来代替原来很大的三维矩阵，即代替了8x8x2个值。

第四步: 16*16块（block）归一化

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

hog-16x16-block-normalization

在前面的步骤中，我们基于图像的梯度对每个cell创建了一个直方图。

但是图像的梯度对整体光照非常敏感，比如通过将所有像素值除以2来使图像变暗，那么梯度幅值将减小一半，因此直方图中的值也将减小一半。理想情况下，我们希望我们的特征描述符不会受到光照变化的影响，那么我们就需要将直方图“归一化” 。

在说明如何归一化直方图之前，先看看长度为3的向量是如何归一化的。

假设我们有一个向量 [128,64,32]，向量的长度为，这叫做向量的L2范数。将这个向量的每个元素除以146.64就得到了归一化向量 [0.87, 0.43, 0.22]。

现在有一个新向量，是第一个向量的2倍 [128x2, 64x2, 32x2]，也就是 [256, 128, 64]，我们将这个向量进行归一化，你可以看到归一化后的结果与第一个向量归一化后的结果相同。所以，对向量进行归一化可以消除整体光照的影响。

知道了如何归一化，现在来对block的梯度直方图进行归一化（注意不是cell），一个block有4个直方图，将这4个直方图拼接成长度为36的向量，然后对这个向量进行归一化。

因为使用的是滑动窗口，滑动步长为8个像素，所以每滑动一次，就在这个窗口上进行归一化计算得到长度为36的向量，并重复这个过程

第五步：计算HOG特征向量

为了计算这整个patch的特征向量，需要把36*1的向量全部合并组成一个巨大的向量。向量的大小可以这么计算:

我们有多少个16*16的块？水平7个，垂直15个，总共有7*15=105次移动。
每个16*16的块代表了36*1的向量。所以把他们放在一起也就是36*105=3780维向量。

这个得到的长度3780的向量就可以作为整个图像的特征描述符。

通常HOG特征描述子是画出8*8网格中9*1归一化的直方图，见下图。你可以发现直方图的主要方向捕捉了这个人的外形，特别是躯干和腿。

图像学习之如何理解方向梯度直方图（Histogram Of Gradient）

为了显示效果更明显，我把cell的尺寸改为(16, 16)，对于每一个cell，画出它归一化后的梯度直方图。如下图所示，我们可以很明显的看出一个人的轮廓。

参考：

HOG特征详解

Histogram of Oriented Gradients

墨墨无文

关注

17
点赞
踩
60

收藏

觉得还不错? 一键收藏
3
评论
方向梯度直方图（Histogram Of Gradient）详解

特征描述子(Feature Descriptor)特征描述子就是图像的表示，抽取了有用的信息，丢掉了不相关的信息。通常特征描述子会把一个w*h*3(宽高3，3个channel)的图像转换成一个长度为n的向量/矩阵。比如一副64*128*3的图像，经过转换后输出的图像向量长度可以是3780。什么样子的特征是有用的呢？假设我们想要预测一张图片里面衣服上面的扣子，扣子通常是圆的，而且上面有几个洞...
复制链接

扫一扫