14天动手学深度学习-Task2

ManziHE

于 2020-02-18 16:51:39 发布

阅读量249

点赞数

本文链接：https://blog.csdn.net/ManziHE/article/details/104377521

版权

本文探讨了深度学习中梯度消失和梯度爆炸的现象，以及在Kaggle房价预测任务中如何避免这些问题。文章强调了随机初始化模型参数的重要性，以防隐藏层失去多样性。接着，讲解了协变量偏移、标签偏移和概念偏移三种环境因素的影响。此外，介绍了循环神经网络（RNN）的进阶，如GRU和LSTM，它们解决了RNN的梯度问题，能有效捕捉时间序列中的长期依赖。最后提到了实现深度和双向RNN的关键参数和连接方式。

摘要由CSDN通过智能技术生成

一、梯度消失、梯度爆炸以及Kaggle房价预测
随机初始化模型参数
在神经网络中，通常需要随机初始化模型参数。下面我们来解释这样做的原因。
如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。**在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭代后值依然相等。**之后的迭代也是如此。在这种情况下，无论隐藏单元有多少，隐藏层本质上只有1个隐藏单元在发挥作用。因此，正如在前面的实验中所做的那样，我们通常将神经网络的模型参数，特别是权重参数，进行随机初始化。
二、考虑环境因素
协变量偏移：协变量偏移P（y∣x），同理可以假设为在x不变的情况下y的概率，而现实是x发生了变化导致y发生了变化，所以就发生了协变量偏移，x为变量。
标签偏移：标签偏移是在P（x∣y），在y的条件下x的概率，可以假设为y不变的情况下x的概率，而现实是y导致x发生了变化，而y是变化的所以就发生了标签偏移，因为y是标签。
概念偏移：另一个相关的问题出现在概念转换中，即标签本身的定义发生变化的情况。这听起来很奇怪，毕竟猫就是猫。的确，猫的定义可能不会改变，但我们能不能对软饮料也这么说呢？事实证明，如果我们周游美国，按地理位置转移数据来源，我们会发现，即使是如图所示的这个简单术语的定义也会发生相当大的概念转变。
在这里插入图片描述
如果我们要建立一个机器翻译系统，分布P（y∣x）可能因我们的位置而异。这个问题很难发现。另一个可取之处是P（y∣x）通常只是逐渐变化。
三、循环神经网络进阶
GRU
RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）
⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系
在这里插入图片描述
LSTM
长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞：⼀种特殊的隐藏状态的信息的流动

深度循环神经网络
在这里插入图片描述
实现深层循环神经网络需要修改的参数是：
num_layers

双向循环神经网络
双向循环神经网络前向和后向RNN连结的方式是：
前向的Ht和后向的Ht用concat进行连结。
在这里插入图片描述
# 在这里放入需要修改颜色的语句 #

ManziHE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
14天动手学深度学习-Task2

一、梯度消失、梯度爆炸以及Kaggle房价预测随机初始化模型参数在神经网络中，通常需要随机初始化模型参数。下面我们来解释这样做的原因。如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。**在反向传播中，每个隐藏单元的参数梯度值相等。因此，这些参数在使用基于梯度的优化算法迭代后值依然相等。**之后的迭代也是如此。在这种情况下...
复制链接

扫一扫