计算机视觉专业术语/名词总结(一)构建知识体系

最新推荐文章于 2024-05-13 17:08:30 发布

CV技术指南(公众号)

最新推荐文章于 2024-05-13 17:08:30 发布

阅读量696

点赞数

分类专栏： CV技术总结文章标签：神经网络 tensorflow 深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/KANG157/article/details/118028488

版权

前言：

在计算机视觉中存在很多的专业术语，如先验知识，语义信息，embedding，head，neck等。这些术语的解释无法直接在网上搜到，也没有在哪一篇论文中定义它们的概念和意义，因此，对于第一次听到这些术语的读者来说会非常的困惑。

此外，对于还没有建立计算机视觉知识体系的读者来说，也很难理解特征空间，fine-tuning、预训练、池化等方面的内容。

本文介绍了很多读者在其它地方不可能了解的内容，通过这些内容相信读者能更深层次地理解计算机视觉，建立起基本的计算机视觉知识体系。

关注公众号CV技术指南，及时获取更多计算机视觉技术总结文章。

backbone、head、neck和fine-tune

以一个图像分类的卷积神经网络为例，网络分成两部分，前部分是由卷积层、归一化层、激活层、池化层堆叠的，输入图像在经过若干层卷积、归一化层、激活层和池化层的堆叠后进入全连接层，经过几次全连接后输出每个类别的概率值。

在这里，前面卷积层、归一化层、激活层和池化层的堆叠部分属于backbone。意思是神经网络的躯干部分，这部分也称为特征提取网络。

后面的全连接层的堆叠属于head。意思是神经网络的头部，实现模型任务的预测，称为predictor head，这部分网络也称为分类网络。

再以目标检测中的YOLO_V4中的图为例。

如上图所示，在backbone后，常构建特征金字塔，在特征金字塔部分做一些处理，如多尺度融合，再将特征金字塔的输出进行预测。因此，特征金字塔这部分放在backbone和head之间，称为neck（脖子），这里的Dense Prediction即为head。

关于backbone即常见的经典网络，如VGG，ResNet，MobileNet，ShuffleNet，DenseNet等，当某个模型提到backbone使用的是VGG，即表示使用的是VGG的backbone部分，而不包括VGG的head。

这里解释一下为何是这样。神经网络有多种解释，其中一种解释如下，神经网络被认为是在提取特征，计算机视觉的传统方法就是人为地设定某些特征，再进行分类。如HOG特征，LBP特征，在提取完特征后，使用分类器对这些特征进行分类，如SVM分类器。

这里的backbone部分则认为是一个特征提取网络，而head部分则被认为是分类网络，因此特征提取的部分可以共享，它们的本质都是在提取图片的特征，而分类网络则对应到具体的任务，如分类猫狗，分类网络需要从提取的特征中分成猫狗两类。

这段话同时也解释了fine-tune的原理，使用一个预训练好的backbone，针对你自己的任务，自己搭建相应的分类网络，在训练时冻结backbone的参数，只训练分类网络的参数。这是因为预训练好的backbone已经具备很好的特征提取能力，因此对于你自己的图像，网络只需要学习如何将提取后的特征按你定义的类别进行分类。