14天动手学深度学习-Task2

本文探讨了深度学习中梯度消失和梯度爆炸的现象,以及在Kaggle房价预测任务中如何避免这些问题。文章强调了随机初始化模型参数的重要性,以防隐藏层失去多样性。接着,讲解了协变量偏移、标签偏移和概念偏移三种环境因素的影响。此外,介绍了循环神经网络(RNN)的进阶,如GRU和LSTM,它们解决了RNN的梯度问题,能有效捕捉时间序列中的长期依赖。最后提到了实现深度和双向RNN的关键参数和连接方式。
摘要由CSDN通过智能技术生成

一、梯度消失、梯度爆炸以及Kaggle房价预测
随机初始化模型参数
在神经网络中,通常需要随机初始化模型参数。下面我们来解释这样做的原因。
如果将每个隐藏单元的参数都初始化为相等的值,那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值,并传递至输出层。**在反向传播中,每个隐藏单元的参数梯度值相等。因此,这些参数在使用基于梯度的优化算法迭代后值依然相等。**之后的迭代也是如此。在这种情况下,无论隐藏单元有多少,隐藏层本质上只有1个隐藏单元在发挥作用。因此,正如在前面的实验中所做的那样,我们通常将神经网络的模型参数,特别是权重参数,进行随机初始化。
二、考虑环境因素
协变量偏移:协变量偏移P(y∣x),同理可以假设为在x不变的情况下y的概率,而现实是x发生了变化导致y发生了变化,所以就发生了协变量偏移,x为变量。
标签偏移:标签偏移是在P(x∣y),在y的条件下x的概率,可以假设为y不变的情况下x的概率,而现实是y导致x发生了变化,而y是变化的所以就发生了标签偏移,因为y是标签。
概念偏移:另一个相关的问题出现在概念转换中,即标签本身的定义发生变化的情况。这听起来很奇怪,毕竟猫就是猫。的确,猫的定义可能不会改变,但我们能不能对软饮料也这么说呢?事实证明,如果我们周游美国,按地理位置转移数据来源,我们会发现,即使是如图所示的这个简单术语的定义也会发生相当大的概念转变。
在这里插入图片描述
如果我们要建立一个机器翻译系统,分布P(y∣x)可能因我们的位置而异。这个问题很难发现。另一个可取之处是P(y∣x)通常只是逐渐变化。
三、循环神经网络进阶
GRU
RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)
⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系
在这里插入图片描述
LSTM
长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞 输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞:⼀种特殊的隐藏状态的信息的流动
在这里插入图片描述
深度循环神经网络
在这里插入图片描述
实现深层循环神经网络需要修改的参数是:
num_layers

双向循环神经网络
双向循环神经网络前向和后向RNN连结的方式是:
前向的Ht和后向的Ht用concat进行连结。
在这里插入图片描述
# 在这里放入需要修改颜色的语句 #

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值