深度学习笔记【一】

最新推荐文章于 2024-07-25 18:25:30 发布

置顶 huangxi000

最新推荐文章于 2024-07-25 18:25:30 发布

阅读量519

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/huangxi000/article/details/104763602

版权

1、常见激活函数：
在这里插入图片描述

https://zhuanlan.zhihu.com/p/63775557
https://kanghaov.com/248.html 重点看
https://zhuanlan.zhihu.com/p/73214810
神经网络为什么需要激活函数：首先数据的分布绝大多数是非线性的，而一般神经网络的计算是线性的，引入激活函数，是在神经网络中引入非线性，强化网络的学习能力。所以激活函数的最大特点就是非线性。

各激活函数的优缺点可从以下几个方面描述：梯度消失、输出域值范围、0均值输出

2、梯度消失与梯度爆炸：
在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1，那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此，梯度消失、爆炸，其根本原因在于反向传播训练法则，属于先天不足。
https://cloud.tencent.com/developer/article/1374163

3、BatchNorm原理和反向传播：
变换原理如下式子。
在这里插入图片描述
机器学习领域有个很重要的假设：IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢？BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的
随着网络深度加深，训练起来越困难，收敛越来越慢。本质上，BN，残差网络，Relu都是为了解决这一问题。
好处：①不仅仅极大提升了训练速度，收敛过程大大加快；②还能增加分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout也能达到相当的效果；③另外调参过程也简单多了，对于初始化要求没那么高，而且可以使用大的学习率等。
坏处：
https://zhuanlan.zhihu.com/p/34879333
反向传播具体过程
https://zhuanlan.zhihu.com/p/45614576

4、Maxpool反向传播：
无论max pooling还是mean pooling，都没有需要学习的参数。因此，在卷积神经网络的训练中，Pooling层需要做的仅仅是将误差项传递到上一层，而没有梯度的计算。
（1）max pooling层：对于max pooling，下一层的误差项的值会原封不动的传递到上一层对应区块中的最大值所对应的神经元，而其他神经元的误差项的值都是0；
（2）mean pooling层：对于mean pooling，下一层的误差项的值会平均分配到上一层对应区块中的所有神经元。
https://blog.csdn.net/xunan003/article/details/86597954

5、梯度下降
SGD （随机梯度下降）
优点：由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
缺点：
（1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。
（2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。
（3）不易于并行实现。

BGD（批量梯度下降）
优点：
（1）一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。
（2）由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。
缺点：
（1）当批样本数目 m 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。

解释一下为什么SGD收敛速度比BGD要快：
答：这里我们假设有30W个样本，对于BGD而言，每次迭代需要计算30W个样本才能对参数进行一次更新，需要求得最小值可能需要多次迭代（假设这里是10）；而对于SGD，每次更新参数只需要一个样本，因此若使用这30W个样本进行参数更新，则参数会被更新（迭代）30W次，而这期间，SGD就能保证能够收敛到一个合适的最小值上了。也就是说，在收敛时，BGD计算了 10×30W 次，而SGD只计算了 1×30W 次。

MBGD（小批量梯度下降）
优点：
（1）通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
（2）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W，设置batch_size=100时，需要迭代3000次，远小于SGD的30W次)
（3）可实现并行化。
缺点：（1）batch_size的不当选择可能会带来一些问题。

batcha_size的选择带来的影响：
（1）在合理地范围内，增大batch_size的好处：
a. 内存利用率提高了，大矩阵乘法的并行化效率提高。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
c. 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。
（2）盲目增大batch_size的坏处：
a. 内存利用率提高了，但是内存容量可能撑不住了。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
c. Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

6、特征选择和数据降维的区别
**特征选择：**是从n个特征中选择d(d<n)个出来，而其它的n-d个特征舍弃。所以新的特征只是原来特征的一个子集，没有被舍弃的d个特征没有发生任何变化。它的缺点是会造成一些信息的丢失。
**数据降维：**它的思路是将原始高维特征空间里的点向一个低维空间投影，新的空间维度低于原特征空间，所以维数减少了。在这个过程中，特征发生了根本性的变化，原始的特征消失了，新的特征保持了原特征的一些性质。PCA和LDA是常见的降维方法。

7、L1、L2正则化
（1）L2正则化为什么能够防止过拟合
过拟合的时候，拟合函数的系数往往非常大，为什么？过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。L2的效果是减小w（系数而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

（2）L1正则化为什么能防止过拟合
因此它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。

详细参考：https://www.cnblogs.com/alexanderkun/p/6922428.html
8、归一化的作用是什么？
标准化是将不同变化范围的值映射到相同的固定范围中，常见的是 [0,1]，此时亦称归一化，也可以是[-1,1]范围。

huangxi000

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习笔记【一】

常见激活函数：https://zhuanlan.zhihu.com/p/63775557https://kanghaov.com/248.htmlhttps://zhuanlan.zhihu.com/p/73214810梯度消失与梯度爆炸：在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1，那...
复制链接

扫一扫