深度学习笔记

dlut小马哥

已于 2023-04-17 09:06:57 修改

阅读量107

点赞数 1

分类专栏：笔记机器学习文章标签：深度学习人工智能

于 2023-03-03 20:32:37 首次发布

本文链接：https://blog.csdn.net/feifei912515863/article/details/129326834

版权

笔记同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

常见问题

1. 训练过程中not number ，infinite 怎么产生的，怎么解决？

答：训练non 是因为过程中除零了，。 inf 是数值太大了。解决方法：调小学习率。

2. 训练过程中如果网络层输出的中间特征元素突然变成non了可能是梯度爆炸造成的

3. 为啥要初始化网络层每层的方差不变啊

神经网络设计中的另一个问题是其参数化所固有的对称性。假设我们有一个简单的多层感知机，它有一个隐藏层和两个隐藏单元。在这种情况下，我们可以对第一层的权重 𝐖(1)
进行重排列，并且同样对输出层的权重进行重排列，可以获得相同的函数。第一个隐藏单元与第二个隐藏单元没有什么特别的区别。换句话说，我们在每一层的隐藏单元之间具有排列对称性。

假设输出层将上述两个隐藏单元的多层感知机转换为仅一个输出单元。想象一下，如果我们将隐藏层的所有参数初始化为 𝐖(1)=𝑐， 𝑐为常量，会发生什么？在这种情况下，在前向传播期间，两个隐藏单元采用相同的输入和参数，产生相同的激活，该激活被送到输出单元。在反向传播期间，根据参数 𝐖(1)对输出单元进行微分，得到一个梯度，其元素都取相同的值。因此，在基于梯度的迭代（例如，小批量随机梯度下降）之后， 𝐖(1)的所有元素仍然采用相同的值。这样的迭代永远不会打破对称性，我们可能永远也无法实现网络的表达能力。隐藏层的行为就好像只有一个单元。请注意，虽然小批量随机梯度下降不会打破这种对称性，但暂退法正则化可以。

解决（或至少减轻）上述问题的一种方法是进行参数初始化，优化期间的注意和适当的正则化也可以进一步提高稳定性。
通常采用Xavier初始化。

在初始化时，为了避免权重值过大或过小，导致梯度消失或梯度爆炸的问题，一般会将权重值初始化为一个小的随机数，通常服从均值为 0，方差为σ² 的高斯分布或均匀分布。

在初始化隐藏层参数时，我们希望每个神经元的输出具有相似的方差，这样可以使得后续的非线性变换更加均匀地作用在神经元上，从而提高模型的表达能力。如果我们采用方差不变的初始化方法，可以保证每个神经元输出的方差大致相等。而如果我们采用方差随着输入神经元个数增加而增加的初始化方法，那么随着神经元个数的增加，输出的方差也会越来越大，从而导致网络的表达能力下降，训练速度变慢。

因此，隐藏层参数随机初始化时，我们应该采用方差不变的初始化方法，从而保证每个神经元输出的方差大致相等，提高模型的表达能力和训练效率。

4.避免梯度爆炸的方法

避免用乘法改用加法

5.std()函数

std()函数就是初高中学的标准差

计算得出的默认标准偏差类型在 numpy 的 .std() 和 pandas 的 .std() 函数之间是不同的。
默认情况下，numpy 计算的是总体标准偏差，ddof = 0。另一方面，pandas 计算的是样本标准偏差，ddof = 1。如果我们知道所有的分数，那么我们就有了总体——因此，要使用 pandas 进行归一化处理，我们需要将“ddof”设置为 0。

6.前向传播和后向传播

前向传播（forward propagation或forward pass）指的是：按顺序（从输入层到输出层）计算和存储神经网络中每层的结果。
反向传播（backward propagation或backpropagation）指的是计算神经网络参数梯度的方法。简言之，该方法根据微积分中的链式规则，按相反的顺序从输出层到输入层遍历网络。该算法存储了计算某些参数梯度时所需的任何中间变量（偏导数）。