机器视觉最全面试题总结_机器视觉面试题-CSDN博客

文章目录

1. 为什么需要做特征归一化、标准化？

使不同量纲的特征处于同一数值量级，减少方差大的特征的影响，使模型更准确。
加快学习算法的收敛速度。

2. 常用常用的归一化和标准化的方法有哪些？

线性归一化（min-max标准化）
x’ = (x-min(x)) / (max(x)-min(x))，其中max是样本数据的最大值，min是样本数据的最小值适用于数值比较集中的情况，可使用经验值常量来来代替max，min
标准差归一化（z-score 0均值标准化） x’=(x-μ) / σ，其中μ为所有样本的均值，σ为所有样本的标准差经过处理后符合标准正态分布，即均值为0，标准差为1
非线性归一化 使用非线性函数log、指数、正切等，如y = 1-e^(-x)，在x∈[0, 6]变化较明显，用在数据分化比较大的场景

3. 介绍一下空洞卷积的原理和作用

空洞卷积(Atrous Convolution)也叫做膨胀卷积、扩张卷积，最初的提出是为了解决图像分割在用下采样（池化、卷积）增加感受野时带来的特征图缩小，后再上采样回去时造成的精度上的损失。空洞卷积通过引入了一个扩张率的超参数，该参数定义了卷积核处理数据时各值的间距。
可以在增加感受野的同时保持特征图的尺寸不变,从而代替下采样和上采样，通过调整扩张率得到不同的感受野不大小：
- a. 是普通的卷积过程(dilation rate = 1),卷积后的感受野为3
- b. 是dilation rate = 2的空洞卷积,卷积后的感受野为5
- c. 是dilation rate = 3的空洞卷积,卷积后的感受野为8
  可以这么说,普通卷积是空洞卷积的一种特殊情况

「参考资料」: 吃透空洞卷积(Dilated Convolutions)、『计算机视觉』空洞卷积

4. 怎么判断模型是否过拟合，有哪些防止过拟合的策略？

在构建模型的过程中，通常会划分训练集、测试集。当模型在训练集上精度很高，在测试集上精度很差时，模型过拟合；当模型在训练集和测试集上精度都很差时，模型欠拟合。

预防过拟合策略:

增加训练数据：获取更多数据，也可以使用图像增强、增样等；
使用合适的模型：适当减少网络的层数、降低网络参数量；
Dropout：随机抑制网络中一部分神经元，使的每次训练都有一批神经元不参与模型训练；
L1、L2正则化：训练时限制权值的大小，增加惩罚机制，使得网络更稀疏；
数据清洗：去除问题数据、错误标签和噪声数据；
限制网络训练时间：在训练时将训练集和验证集损失分别输出，当训练集损失持续下降，而验证集损失不再下降时，网络就开始出现过拟合现象，此时就可以停止训练了；
在网络中使用BN层（Batch Normalization）也可以一定程度上防止过拟合。
「参考资料」：N，LN，IN，GN都是什么？不同归一化方法的比较、深度学习中的五种归一化（BN、LN、IN、GN和SN）方法简介、层归一化，循环批归一化（2016）和批归一化RNN（2015）有什么区别？

5. 除了SGD和Adam之外，你还知道哪些优化算法？

主要有三大类：

a. 基本梯度下降法，包括 GD，BGD，SGD；
b. 动量优化法，包括 Momentum，NAG 等；
c. 自适应学习率优化法，包括 Adam，AdaGrad，RMSProp 等。
「参考资料」: 从SGD到NadaMax，十种优化算法原理及实现

6. 阐述一下感受野的概念，并说一下在CNN中如何计算

感受野指的是卷积神经网络每一层输出的特征图上每个像素点映射回输入图像上的区域的大小，神经元感受野的范围越大表示其接触到的原始图像范围就越大，也就意味着它能学习更为全局，语义层次更高的特征信息，相反，范围越小则表示其所包含的特征越趋向局部和细节。因此感受野的范围可以用来大致判断每一层的抽象层次，并且我们可以很明显地知道网络越深，神经元的感受野越大。
卷积层的感受野大小与其之前层的卷积核尺寸和步长有关，与padding无关。计算CNN的感受野

7. 训练神经网络有哪些调参技巧

8. 神经网络的深度和宽度分别指的是什么？

神经网络的深度决定了网络的表达能力，早期的backbone设计都是直接堆叠卷积层，它的深度指的是神经网络的层数；后来的backbone设计采用了更高效的module（或block）堆叠的方式，每个module是由多个卷积层组成，这时深度指的是module的个数。
神经网络的宽度决定了网络在某一层学习到的信息量，指的是卷积神经网络中最大的通道数，由卷积核数量最多的层决定。通常的结构设计中卷积核的数量随着层数越来越多的，直到最后一层feature map达到最大，这是因为越到深层，feature map的分辨率越小，所包含的信息越高级，所以需要更多的卷积核来进行学习。通道越多效果越好，但带来的计算量也会大大增加，所以具体设定也是一个调参的过程，并且各层通道数会按照8×的倍数来确定，这样有利于GPU的并行计算。
在这里插入图片描述

9. 上采样的原理和常用方式

在卷积神经网络中，由于输入图像通过卷积神经网络(CNN)提取特征后，输出的尺寸往往会变小，而有时我们需要将图像恢复到原来的尺寸以便进行进一步的计算(如图像的语义分割)，这个使图像由小分辨率映射到大分辨率的操作，叫做上采样，它的实现一般有三种方式：

a. 插值，一般使用的是双线性插值，因为效果最好，虽然计算上比其他插值方式复杂，但是相对于卷积计算可以说不值一提，其他插值方式还有最近邻插值、三线性插值等；
b. 转置卷积又或是说反卷积，通过对输入feature map间隔填充0，再进行标准的卷积计算，可以使得输出feature map的尺寸比输入更大；
c. Max Unpooling，在对称的max pooling位置记录最大值的索引位置，然后在unpooling阶段时将对应的值放置到原先最大值位置，其余位置补0；

「参考资料」：深度卷积网络中如何进行上采样？、三种上采样方法 | Three up sampling methods、上采样（upsampling）

10. 下采样的作用是什么？通常有哪些方式？

下采样层有两个作用，一是减少计算量，防止过拟合；二是增大感受野，使得后面的卷积核能够学到更加全局的信息。

下采样的方式主要有两种：
- a. 采用stride为2的池化层，如Max-pooling和Average-pooling，目前通常使用Max-pooling，因为他计算简单而且能够更好的保留纹理特征；
- b. 采用stride为2的卷积层，下采样的过程是一个信息损失的过程，而池化层是不可学习的，用stride为2的可学习卷积层来代替pooling可以得到更好的效果，当然同时也增加了一定的计算量。
  「参考资料」：