深度学习基础知识复习

1、描述为什么需要量化,量化的流程。
目前很多高精度的深度学习模型所需内存、计算量和功耗巨大,但不适合部署到一些低成本的嵌入式设备,为了解决此问题,模型压缩技术应运而生。
量化的流程:
在这里插入图片描述
通过数据映射,将输入float32的数据类型转为uint8,biases不进行量化操作,进行卷积计算后输出unit32的数据类型,与biases加和后,再次转为uint8,经激活函数激活后输出uint8的数据类型。相对于float32,uint8量化可以将模型大小减少4倍,并将内存带宽要求减少4倍,对uint8计算的硬件支持通常快2到4倍,量化主要是加速前向推理。

2、描述剪枝的种类,最常用的剪枝是哪种,为什么?
(1)全连接剪枝:对权重参数进行L1或L2正则化,定义一个阈值,小于这些阈值的被剪掉,当一个神经元大多数连接都被丢弃时,该神经元同样被丢弃,剪枝这些贡献度低的神经元,模型的准确度会有一定的损失(当然我们希望损失得越小越好),因此,剪枝后的模型通常需要更多的训练来使其保证一定的性能。
(2)卷积剪枝:计算每个卷积核的L1正则化(卷积核的所有权值的绝对值之和),小于阈值的卷积核被丢弃。
常用的是L1剪枝,L1能使没有用的权重直接变为零。
每次剪枝后对网络重新进行训练,从而使剩余的连接仍可以补偿已被移除的连接。

3.描述蒸馏的原理。
使用硬标签训练一个大模型,然后用大模型的输出作为软标签训练一个小模型,从而使小模型获得更高的性能。

公式: q i = e x p ( z i / T ) ∑ e x p ( z j / T ) q_{i}=\frac{exp(z_{i}/T)}{\sum exp(z_{j}/T)} qi=exp(zj/T)exp(zi/T)

T无穷大时,结果趋近于 1/C,即所有类别上的概率趋近于相等。T>1 时,我们就能获得 soft target label。通过提高 T,softmax层的映射曲线更加平缓,因而实例的概率映射将更为集中,便使得目标更加地「soft」

4.跨层连接的方式有哪些,这些方法的区别?
路由:输出结果在通道维度上concate
残差:输出直接相加,需要形状相同

5.BatchNormal的执行步骤,为什么需要BatchNormal?
对一批图片进行归一化,求出均值和方差;
BN能够解决神经网络出现收敛很慢的情况和防止深层网络带来的梯度弥散问题。

6.至少从三种视角描述过拟合的原因,哪些图像能发现过拟合,如何解决过拟合。
原因:(1)从线性代数角度:参数量过多,方程太少
(2)从贝叶斯公式:利用最大似然进行估计,假设了先验概率为1,导致估计偏大
(3)从权重w角度:当w绝对值过大时,输入x产生微小变化时会导致输出y变化过大,此时据需要对权重w进行正则化,防止过拟合
发现过拟合:模型的训练集和验证集的表现效果图,过拟合的模型训练集表现效果很好,验证集很差。
如何解决过拟合:增加数据量,加正则化,加Dropout

7.描述梯度弥散的原因,如何发现梯度弥散,如何解决梯度弥散。
梯度弥散原因:当网络层数很深时,信息流通不畅,梯度就会不停衰减,甚至消失,使得整个网络很难训练. 这就是所谓的梯度消失问题,也称为梯度弥散问题。
如何发现梯度弥散:训练时损失不再下降,观察网络最后几层的梯度,梯度过小时就是梯度弥散。
解决梯度弥散:加入残差网络

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值