深度学习之pytorch（三）

最新推荐文章于 2023-01-11 14:47:27 发布

关切得大神

最新推荐文章于 2023-01-11 14:47:27 发布

阅读量256

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41115379/article/details/108005889

版权

深度学习专栏收录该内容

36 篇文章 1 订阅

订阅专栏

神经网络的结构
最常见的神经网络是全连接神经网络，其中两个相邻层中每一个层的所有神经元和另外一个层的所有神经元都是相连的，每个层内部的神经元不相连。
在这里插入图片描述
N层神经网络是不会把输入层算进去的，因此一个一层的神经网络是指没有隐藏层，只有输入和输出层的神经网络，就像logistic回归就是一个一层的神经网络。

模型的表示能力与容量
这里出现了一个名词叫做：过拟合：在忽略了潜在的数据关系的前提之下，将噪音的干扰放大了。

深度学习的基石：反向传播算法
它是一个有效地求解梯度的算法，本质上其实就是一个链式求导法则的应用。

链式法则：
对于一个简单的函数，除了可以直接求出这个函数的微分以外，还可以使用链式法则，对两个式子分别求微分，核心就是；对需求求导的元素进行求导的时候，可以一层一层求导，然后把结果乘起来。

在这里插入图片描述
对于一些优化算法的变式
1.梯度下降法：

1.1SGD
随机梯度下降法是梯度下降法的一个小变形。
1.2.Momentum
这就是增加动量，来自于物理的概念
1.3.Adagrad
是一种自适应学习率的方法
1.4RMSprop
是一种非常有效的自适应学习率的改进方法
1.5Adam
是一种综合型的学习方法，可以看成是RMSprop加上动量的学习方法，达到比RMSProp更好的效果。

处理数据和训练模型的技巧
1.数据预处理
1.1中心化
数据预处理中一个最常见的处理办法就是每个特征维度都减去相应的均值实现中心化，使得变成0均值。
1.2标准化
在使得数据都变成0均值之后，还需要使用标准化的做法让数据不同的特征维度都有着相同的规模，有两种比较常见的方法，第一种是除以标准差，也就是让新数据的分布接近标准高斯分布，还有一种做法是让每一个特征维度的最大值和最小值按比例缩放到-1和1之间
1.3PCA
pca是另外一种处理数据的方法，在这一步之前，会将数据中心化，在计算数据的协方差矩阵。
1.4白噪声
这也是一种处理数据的方式，首先会和PCA一样，将数据投影到一个特征空间当做，再对每一个维度除以特征值来标准化这些数据，直观上就是一个多元高斯分布转换到一个0均值，协方差矩阵为1的多元高斯分布。

权重初始化
在对数据进行预处理之后，进入网络训练之前，需要对参数进行预处理，以下是对应的策略。
1.全0 初始化
这个是比较简单直接的一种，直接把参数全都初始化为0，但是这种方法不是一个很好的方法，因为把权重全都初始化为相同的值，每个神经元就都会计算出相同的结果，在反向传播的时候也会计算出相同的梯度，最后导致所有的权重都会有相同的更新，权重之间就失去了不对称性。
2.随机初始化
因为我们希望权重的初始化是尽量靠近0，但是不能全都等于0，所有可以将权重初始化为靠近0 的一些随机数，通过“随机初始化”就可以打破对称性。
一般有高斯随机化，均匀随机化等
3.稀疏初始化
他将权重全都初始化为0，然后为了打破对称性，在里面随机挑选一些参数附上一些随机值，这这方法的好处就是参数占用的内存较少，因为里面有较多的0
4.初始化偏置
对于偏置来说，初始化为0，因为权重已经打破了对称性，所以使用0来初始化是最简单的
5.批标准化
他的核心想法就是标准化这个过程是可微的，减少很多不合理初始化的问题，所以我们可以将标准化过程应用到神经网络的每一层中做前向和反向传播。

以下是一些具体的防止过拟合的办法。
1.正则化
他是比较常见的形式，想法就是对于权重过大的部分进行惩罚，也就是直接在损失函数中增加权重的二范数量级。
2.Dropout
这个是使用最广泛的一个，核心想法就是在训练网络的时候，依概率P保留每一个神经元，也就是说每一次训练的时候有些神经元会被设置成0
在这里插入图片描述

关切得大神

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习之pytorch（三）

神经网络的结构最常见的神经网络是全连接神经网络，其中两个相邻层中每一个层的所有神经元和另外一个层的所有神经元都是相连的，每个层内部的神经元不相连。N层神经网络是不会把输入层算进去的，因此一个一层的神经网络是指没有隐藏层，只有输入和输出层的神经网络，就像logistic回归就是一个一层的神经网络。模型的表示能力与容量这里出现了一个名词叫做：过拟合：在忽略了潜在的数据关系的前提之下，将噪音的干扰放大了。深度学习的基石：反向传播算法它是一个有效地求解梯度的算法，本质上其实就是一个链式求导法则的应用。
复制链接

扫一扫