持续更新
深度学习面试题记录笔记:
-
HK算法思想很朴实,就是在最小均方误差准则下求得权矢量. 他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。
-
卷积以后大小:设输入图像尺寸为W,卷积核尺寸为F,步幅为S,Padding使用P,经过该卷积层后输出的图像尺寸为(W−F+2P)/S + 1
池化以后得大小:(W - F)/ S + 1 -
当在卷积神经网络中加入池化层(pooling layer)时,变换的不变性会被保留,是吗?是
池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有这种不变性。 -
梯度消失
参考 -
令所有权重都初始化为0这个一个听起来还蛮合理的想法也许是一个我们假设中最好的一个假设了, 但结果是错误的,因为如果神经网络计算出来的输出值都一个样,那么反向传播算法计算出来的梯度值一样,并且参数更新值也一样(w=w−α∗dw)。更一般地说,如果权重初始化为同一个值,网络即是对称的, 最终所有的神经元最后都会变成识别同样的东西。
-
具体来说,误差瞬间降低, 一般原因是多个数据样本有强相关性且突然被拟合命中, 或者含有较大方差数据样本突然被拟合命中. 所以对数据作主成分分析(PCA)和归一化能够改善这个问题。
-
激活函数:
参考 -
使用ReLU激活函数的神经网络是能够模拟出同或函数的。 但如果ReLU激活函数被线性函数所替代之后,神经网络将失去模拟非线性函数的能力。
“线性”=“齐次性”+“可加性”,
"齐次性"是指类似于: f(ax)=af(x),
"可加性"是指类似于: f(x+y)=f(x)+f(y),
这里没有太多特别的原因, 就是一个名字. "非线性"当然就是这两条至少之一不成立. -
Dropout率越高,正则化程度越低
正则化就是让模型变得没有那么复杂,模型复杂就惩罚他。高dropout率意味着更多神经元是激活的,,所以模型复杂,那么正则化程度就相对较低。所以这亦为之正则化更少。 -
与普通反向传播不同的是,BPTT会在每个时间步长内叠加所有对应权重的梯度。
BPTT是循环神经网络得知识点。
- 为了处理梯度爆炸问题,最好让权重的梯度更新限制在一个合适的范围,可以采用梯度裁剪得方法。
LSTM可以解决梯度消失问题,但是不适于解决梯度爆炸问题。 - 梯度下降算法
参考 - 在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。 所以dropout会使输入和输出权重都变为无效,而在dropconnect中,只有其中一种会被失活。
看到的比较好的深度学习面试总结题目:
https://www.cnblogs.com/hellojamest/p/11178803.html
https://blog.csdn.net/SIGAI_CSDN/article/details/82804107