深度学习面试遇到问题

最新推荐文章于 2022-10-24 22:00:33 发布

灵喵先生

最新推荐文章于 2022-10-24 22:00:33 发布

阅读量905

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_43246440/article/details/102670567

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.BatchNormalization的作用?

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

2.什么是梯度消失 ?

神经网络的反向传播是逐层对函数偏导相乘，当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终就会变为0，从而导致层数比较浅的权重没有更新。

3.什么是Group Convolution ?

Group Convolution顾名思义，则是对输入feature map进行分组，然后每组分别卷积。假设输入feature map的尺寸仍为?∗?∗?，输出feature map的数量为?个，如果设定要分成?个groups，则每组的输入feature map数量为?/?，每组的输出feature map数量为?/?，每个卷积核的尺寸为(?/?)∗?∗?，卷积核的总数仍为?个，每组的卷积核数量为?/?，卷积核只与其同组的输入map进行卷积，卷积核的总参数量为?∗(?/?)∗?∗?，可见，总参数量减少为原来的 1/?

4.训练过程中,若一个模型不收敛,那么是否说明这个模型无效?导致模型不收敛的原因有哪些?

并不能说明这个模型无效,导致模型不收敛的原因可能有数据分类的标注不准确,样本的信息量太大导致模型不足以fit整个样本空间。学习率设置的太大容易产生震荡,太小会导致不收敛。可能复杂的分类任务用了简单的模型。数据没有进行归一化的操作。

5. VGG使用3*3卷积核的优势是什么?

在VGG中，使用了3个3x3卷积核来代替7x7卷积核，使用了2个3x3卷积核来代替5*5卷积核，这样做的主要目的是在保证具有相同感知野的条件下，减少参数，提升了网络的深度，多了非线性激活函数，这就增加了非线性表达，在一定程度上提升了神经网络的效果。

6.Relu比Sigmoid的效果好在哪里?

计算梯度更快，sigmoid函数在计算梯度的时候须要进行幂运算，这相对而言更加的耗时

Sigmoid容易导致梯度消失，Sigmoid容易陷入饱和区域，这部分区域的梯度为0,

relu在激活值为负数的时候，梯度为0，此部分神经元不参与训练，可以更好地发现稀疏性

7.神经网络激活函数？

Sigmoid
在这里插入图片描述
它是便于求导的平滑函数，其导数为:

缺点:梯度消失；幂运算计算量大；Sigmoid函数的输出不不是Zero-centered的

tanh函数
在这里插入图片描述

其实是一个简单放大的sigmoid神经元，和sigmoid神经元⼀样，也具有软饱和性。但是和sigmoid神经元不同的是，它解决了zero-centered的输出问题，因此，在实际操作中，tanh非线性函数比sigmoid非线性函数更受欢迎。然而，gradient vanishing的问题和幂运算的问题仍然存在。因为tanh的输出均值比sigmoid更接近0，SGD会更更接近natural gradient（一种二次优化技术），从而降低所需的迭代次数。

relu函数
在这里插入图片描述
优点:
解决了gradient vanishing问题：ReLU在x<0时硬饱和。由于时导数为1，所以，ReLU能够在时保持梯度不衰减，从而缓解梯度消失问题。
计算速度非常快。对比sigmoid和tanh神经元含有指数运算等耗费计算资源的操作，ReLU可以简单地通过对⼀个矩阵进行阈值计算得到。ReLU程序实现就是一个if-else语句句，而sigmoid函数要进行浮点四则运算
收敛速度非常快。相较于sigmoid和tanh函数，ReLU对于随机梯度下降的收敛有巨大的加速作用。
ReLU另外一个性质是提供神经网络的稀疏表达能力，relu函数在负半区的导数为0 ，所以一旦神经元激活值进入负半区，那么梯度就会为0，也就是说这个神经元不会经历训练，即所谓的稀疏性

缺点:
Dead ReLU Problem。随着训练的推进，部分输入会落入硬饱和区，某些神经元可能永远不会被激活，这个ReLU单元在训练中将不可逆转的死亡，导致相应的参数永远不能被更新，使得数据多样化丢失。
偏移现象。即输出均值恒大于零。偏移现象和Dead ReLU Problem会共同影响网络的收敛性。

8.在深度学习中，通常会finetuning已有的成熟模型，再基于新数据，修改最后几层神经网络权值，为什么？

通常我们的dataset都不会特别大，一般不会超过1万张，甚至更少，每一类图片只有几十或者十几张。这时候，直接应用这些数据训练一个网络的想法就不可行了，因为深度学习成功的一个关键性因素就是大量带标签数据组成的训练集。如果只利用手头上这点数据，即使我们利用非常好的网络结构，也达不到很高的performance。这时候，fine-tuning的思想就可以很好解决我们的问题。

9.什么是dropout ?

在这里插入图片描述

10.介绍一下Adam

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的权重，学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

11.1*1的卷积作用

通过改变通道数实现降维或者升维
等价于全连接层，卷积的计算过程相当于全连接层计算，增加非线性，增强网络表达能力
可以让网络变得更深，在Inception中计算量很大，通过引入1*1卷积确保效果的同时降低计算量。

12.怎么提升网络的泛化能力?

(1)数据上：收集更多数据、数据增强、数据缩放、数据变换、特征选择、问题重构。
(2)算法上：选择合适的模型；重采样；调试学习率、网络结构、batch、epoch、正则项、dropout、优化方法和损失函数、early stopping等进行算法调优。

13.目标检测R-CNN系列算法总结

14.目标检测YOLO系统算法总结

15.梯度消失梯度爆炸怎么解决?

1）、使用 ReLU、LReLU、ELU、maxout 等激活函数
sigmoid函数的梯度随着x的增大或减小和消失，而ReLU不会。
2）、使用批规范化
通过规范化操作将输出信号x规范化到均值为0，方差为1保证网络的稳定性。从上述分析分可以看到，反向传播式子中有w的存在，所以w的大小影响了梯度的消失和爆炸，Batch Normalization 就是通过对每一层的输出规范为均值和方差一致的方法，消除了w带来的放大缩小的影响，进而解决梯度消失和爆炸的问题。

16.传统图像处理方法知道哪些?

数字图像处理常用方法：
1）图像变换：由于图像阵列很大，直接在空间域中进行处理，涉及计算量很大。因此，往往采用各种图像变换的方法，如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术，将空间域的处理转换为变换域处理，不仅可减少计算量，而且可获得更有效的处理（如傅立叶变换可在频域中进行数字滤波处理）。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性，它在图像处理中也有着广泛而有效的应用。

2）图像编码压缩：图像编码压缩技术可减少描述图像的数据量（即比特数），以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得，也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法，它在图像处理技术中是发展最早且比较成熟的技术。

3）图像增强和复原：图像增强和复原的目的是为了提高图像的质量，如去除噪声，提高图像的清晰度等。图像增强不考虑图像降质的原因，突出图像中所感兴趣的部分。如强化图像高频分量，可使图像中物体轮廓清晰，细节明显；如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解，一般讲应根据降质过程建立“降质模型”，再采用某种滤波方法，恢复或重建原来的图像。

4）图像分割：图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来，其有意义的特征有图像中的边缘、区域等，这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法，但还没有一种普遍适用于各种图像的有效方法。因此，对图像分割的研究还在不断深入之中，是目前图像处理中研究的热点之一。

5）图像描述：图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性，一般图像的描述方法采用二维形状描述，它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展，已经开始进行三维物体描述的研究，提出了体积描述、表面描述、广义圆柱体描述等方法。

6）图像分类（识别）：图像分类（识别）属于模式识别的范畴，其主要内容是图像经过某些预处理（增强、复原、压缩）后，进行图像分割和特征提取，从而进行判决分类。图像分类常采用经典的模式识别方法，有统计模式分类和句法（结构）模式分类，近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。

灵喵先生

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习面试遇到问题

1.BatchNormalization的作用?神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的...
复制链接

扫一扫