文章目录
前向神经网络
前向传播和后向传播
前向神经网络本质上是一个多元复合函数,由输入层、隐藏层、输出层组成,前向传播计算出输出,然后后向传播使用链式法则计算节点错误,并且优化参数,神经网络的最优参数是使得损失最小的参数。
后向传播的两个重要过程:首先由前向传播计算出各个节点的激活函数输入值,然后通过后向传播计算各个节点错误。在参数估计中发挥重要作用。
递归神经网络
前向神经网络的局限:
- 输入长度固定(由于模型参数即权重矩阵维度需要提前确定)
- 参数规模与输入长度密切相关,过长的序列会导致超出计算机存储能力
线性序列特点
- 序列长度动态变化
- 序列长度可能超长
由于前向神经网络的局限性,不能很好的处理线性序列,因此引入递归神经网络使得网络可以处理超长得序列并且将参数控制在合理范围内。
循环神经网络
RNN特点:
- 参数共享(输入向量和隐藏向量之间的权重矩阵、一次囊向量之间的权重矩阵、隐藏向量和输出向量之间的权重矩阵固定不变)
- 串行计算(输入向量、隐藏向量和输出向量在不同位置存在严格依赖关系)
接下来表示的是RNN的架构,以及参数传递的过程,
假设从u到v存在一条路径,在后向传播过程中,梯度可以从节点u传到v,可能会出现由于网络结构太深,出现反向传播过程中的梯度连乘问题,造成参数估计不稳定,而引发的梯度爆炸和梯度消失。
梯度消失:导致神经网络前面层的网络权重矩阵无法得到更新,最终训练失败;
梯度爆炸:导致网络中的权重获得大幅度更新,造成学习过程不稳定,一种结果是权重溢出,而无法更新参数。
循环神经网络的核心问题是平衡历史与当下信息的问题。
超长序列中,历史信息的表示存在问题,仅仅用一个向量无法表示历史的所有信息,于是引入了LSTM,给RNN加上存储和记忆的能力。
长短时记忆网络
LSTM的特点是引入了存储和记忆的功能。
LSTM的特点:
- 记忆功能。内置记忆单元,比原始RNN由更强的记忆功能。
- 动态门限。对输入和输出进行控制,显著增强了对信息的利用能力。
- 缓解梯度消失和梯度爆炸问题。
- 引入更多参数
于是接着又引入双向循环神经网络、深层循环神经网络、树状循环神经网络,加强模型的表达能力。
卷积神经网络
卷积后的形状
(W-F+2P)/S+1 (其中W是原始形状,F是kernal形状,P是padding大小,S是步长)
降采样卷积
增加步长使得卷积之后形状变小
卷积特点
- 稀疏交互。区别于前向神经网络的密集、全局交互,卷积网络中的神经元之间存在稀疏、局部的交互。
- 参数共享。前向网络中各层权重矩阵独立,而卷积网络中,卷积核中的参数全局共享。
- 高小性。
最大池化
选择各个分区中的最大值作为输出。
多通道卷积
将各个不同通道的卷积结果加和后得到最终结果
残差连接
将输出表述为输入的非线性变换和输入的线性叠加
注意力神经网络
一般形式的注意力机制
注意力机制:面向键、值数据库的查询操作,其关键是计算查询与键的匹配度。
矩阵形式的注意力机制
对比
前向网络:参数长度固定,传统
循环网络:适合处理较长序列的一维数据,难以并行计算
卷积网络:适合处理二维数据,可以高效提取局部性特征表示,难以处理超长距离依赖
注意力网络:降低元素间信息传递距离,难以处理超长距离依赖