（学习笔记2）特征融合

最新推荐文章于 2024-05-16 15:33:40 发布

DreamZ00

最新推荐文章于 2024-05-16 15:33:40 发布

阅读量7.4k

点赞数 4

文章标签：图像处理

本文链接：https://blog.csdn.net/DreamZ00/article/details/125759534

版权

（学习笔记2）特征融合

特征融合的定义

特征融合的分类

参考文献

特征融合的定义

特征融合是模式识别领域的一种重要方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍存在很多挑战，特征融合方法能够中和利用多种图像特征，实现多特征的优势互补，获得更加鲁棒和准确的识别结果。

计算机视觉（Computer Vision）又称为机器视觉（Machine Vision），顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下，计算机视觉与自然语言处理（Natural Language Process， NLP）及语音识别（Speech Recognition）并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图（Histogram of Gradient， HOG）以及尺度不变特征变换（Scale-Invariant Feature Transform， SIFT）等传统的手办特征（Hand-Crafted Feature）与浅层模型的组合逐渐转向了以卷积神经网络（Convolutional Neural Network， CNN）为代表的深度学习模型。

特征融合的分类

1.早融合（Early Fusion）

在特征上进行融合，进行不同特征的连接，输入到一个模型中进行训练（先融合多层的特征，然后在融合后的特征上训练预测器，只有在完全融合之后，才进行检测）。这类方法也被称为skip connection，即采用concat、add操作。

skip connection的初衷是为了解决梯度消失的问题。在学习深度神经网络的参数时，通常都是通过梯度下降的方式，即从网络的输出层开始由后向输入层计算每一层的梯度。由于梯度通常是小于1的数值，当层数很多的时候，梯度就会变的越来越小。最终出现梯度消失的问题。当梯度无限接近于0，网络就没有办法更新学习了。所以就有了skip connection这个思路，简言之，在深度网络的中间层额外加入浅层的input，使得梯度的“路径”不再那么长。类似提供一个复合路径，在原来的“长路径”的基础上，现在额外添加一个“捷径”。Skip connection在本质上就是额外提供一个计算梯度的“捷径”。
1. 1.concat（concatenation，级联）
  
  来源于DenseNet，在一个Dense Block中，较浅层的输入会级联在一起输入下一层次网络。一层层递推，越往后的层，获得级联的信息就越多。如图，这种方式可以多很多条“捷径”，浅层的输入直接有通道通往block的输出层。这样做也可以很大程度上降低网络梯度消失的问题。
  
  DenseNet以前馈的方式(feed-forward fashion)将每个层与其它层连接起来。在传统卷积神经网络中，对于L层的网络具有L个连接，而在DenseNet中，会有L(L+1)/2个连接。每一层的输入来自前面所有层的输出。
2. 2.add（addition，加法）
  
  来源于ResNet，其实就是做一个residual block（RB）：这个block通过“identity function”的方式提供捷径。把residual block里面的网络看做一个函数F(x)，他的输入是 x 和输出F(x)+x。“identity”就体现在输入和输出都有一个x，在addition的部分（+x）为求梯度提供了一条捷径。
  
  ResNet（深度残差网络）的提出是CNN图像史上的一件里程碑事件
2.晚融合（Late Fusion）

在预测分数上进行融合，做法就是训练多个模型，每个模型都会有一个预测分数，我们对所有模型的结果进行融合，得到最后的预测结果。（通过结合不同层的检测结果改进检测性能，尚未完成最终融合之前，在部分融合的层上酒开始检测，会有多层的检测，最终将多个检测结果进行融合）。这一思路的代表是feature不融合和feature进行金字塔融合，融合后进行预测。
1. 1.feature不融合
  
  多尺度的feature分别进行预测，然后对预测结果进行综合，如Single Shot MultiBox Detector(SSD)，Multi-scale CNN(MS-CNN)。
  
  SSD属于one-stage方法，在保证了精读的同时，又提高了检测速度。SSD算法在传统的基础网络（比如VGG）后添加了5个特征尺寸依次减小的卷积层，对5个特征图的输入分别采用2个不同的3*3的卷积核进行卷积，一个输出的分类用给的confidence，每个default box生成21个类别的confidence；一个输出回归用的localization，每个default box生成4个坐标值，最后将5个特征图上的结果合并（contact），送入loss层。
2. 2.feature进行金字塔融合，融合后进行预测
  
  如Feature Pyramid Network（FPN）等。
  
  FPN网络有效地解决了物体检测中的多尺度问题。底层特征图中的信息较少，但是目标位置准确，高层特征图信息丰富，但是位置比较粗略，FPN不同的地方在于在不同的特征层独立进行预测。

参考文献

[1] https://blog.csdn.net/qq_42012782/article/details/123202419 特征融合的分类和方法

[2] https://zhuanlan.zhihu.com/p/457590578 浅析深度学习中的Skip Connection

[3] https://zhuanlan.zhihu.com/p/31852747 你必须要知道CNN模型：ResNet

[4] https://zhuanlan.zhihu.com/p/67206089 CNN（卷积神经网络）介绍

[5] https://blog.csdn.net/zj15939317693/article/details/80596870 SSD(Single Shot MultiBox Detector)算法理解

[6] https://blog.csdn.net/stu_shanghui/article/details/92017675 FPN网络详解——feature pyramid network

DreamZ00

关注

4
点赞
踩
31

收藏

觉得还不错? 一键收藏
2
评论
（学习笔记2）特征融合

特征融合的定义特征融合的分类参考文献特征融合是模式识别领域的一种重要方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍存在很多挑战，特征融合方法能够中和利用多种图像特征，实现多特征的优势互补，获得更加鲁棒和准确的识别结果。...
复制链接

扫一扫