深度学习笔记

最新推荐文章于 2024-01-09 11:17:13 发布

关山口老咸鱼

最新推荐文章于 2024-01-09 11:17:13 发布

阅读量359

点赞数

本文链接：https://blog.csdn.net/u010521845/article/details/53418753

版权

本文介绍了深度学习中的前向传播和反向传播神经网络，详细阐述了LSTM的工作原理，包括其解决梯度消失和爆炸问题的优势，并探讨了LSTM的主要参数和处理算法，如输入、遗忘和输出门以及细胞状态的计算。此外，还讨论了神经网络的参数如层数、层大小、TBPTT长度、Epoch数量、样本长度、最小批处理大小、优化算法和初始化算法的选择对模型性能的影响。

摘要由CSDN通过智能技术生成

Forward Propagation Neuron Net

Backward Propagation Neuron Net

BP算法的目标是加速求解矩阵运算中的梯度下降问题。
链式法则：在上图中， $\frac{\partial e}{\partial b}=\frac{\partial e}{\partial c}\frac{\partial c}{\partial b}+\frac{\partial e}{\partial d}\frac{\partial d}{\partial b}$ ，即a对b的求导等于a到b的各个路径上逐个求导后乘积的和。
BP的优势在于对每一段路径仅做一次访问即可求出顶点对每一个下层节点的偏导。

RNNs

LSTM

LSTM相比于RNNs的优势在于：
- 处理了梯度爆炸和梯度消失的问题
- 梯度爆炸和消失指多重嵌套 $(f(f(f(...f(x)))))$ 后梯度过大或过小的问题
- 结果是模型对之前的信息能进行更有效的记忆
LSTM 采用的三个门以及Cells:
- 其中黑点表示矩阵*操作，外部接入的带箭头三根黑线包含两部分：输入层输入和上一时刻隐藏层的输入。
- 三个门和cells的被定义为公式中带自身下标的矩阵群，学习的过程是通过反向传播调整矩阵群，达到损失函数的最小化。
- Input gate： $a t l = (\sum i = 1 I w i l * x t i + \sum h = 1 H w h l * b t - 1 h + \sum c = 1 C w c l * s t - 1 c)$ $a_{l}^t = (\sum_{i=1}^{I}w_{il}*x_i^t+\sum_{h=1}^Hw_{hl}*b_{h}^{t-1}+\sum_{c=1}^Cw_{cl}*s_{c}^{t-1})$ $b t l = f (a t l)$ $b_l^t=f(a_l^t)$
  - Forget gate： $a t ϕ = \sum i = 1 I w i ϕ * x t i + \sum h = 1 H w h ϕ * b t - 1 h + \sum c = 1 C w c ϕ * s t - 1 c$ $a_\phi^t=\sum_{i=1}^Iw_{i\phi}*x_i^t+\sum_{h=1}^Hw_{h\phi}*b_{h}^{t-1}+\sum_{c=1}^Cw_{c\phi}*s_c^{t-1}$ $b t ϕ = f (a t ϕ)$ $b_{\phi}^t=f(a_{\phi}^t)$
- Cells： $a t c = \sum i = 1 I w i c * x t i + \sum h = 1 H w h c * b t - 1 h$ $a_{c}^t=\sum_{i=1}^Iw_{ic}*x_{i}^t+\sum_{h=1}^Hw_{hc}*b_{h}^{t-1}$ $s t c = b t l * g (a t c) + b t ϕ * s t - 1 c$ $s_{c}^t=b_{l}^t*g(a_{c}^t)+b_{\phi}^t*s_c^{t-1}$ 这里的 $g(a_c^t)$ 指的是上图最下层的 $f_{g}$ 函数
- Output gate： $a t ω = \sum i = 1 I w i ω * x t i + \sum h = 1 H w h ω * b t - 1 h + \sum c = 1 C w c ω * s t c$ $a_{\omega}^t=\sum_{i=1}^{I}w_{i\omega}*x_{i}^t+\sum_{h=1}^{H}w_{h\omega}*b_{h}^{t-1}+\sum_{c=1}^{C}w_{c\omega}*s_{c}^t$ $b t ω = f (a t ω)$ $b_{\omega}^{t}=f(a_{\omega}^{t})$
- 最后的神经输出 $b t c = b t ω * h (s t c)$ $b_{c}^t=b_{\omega}^t*h(s_c^t)$
- $I,H,C$ 分别代表输入样本的维度数，隐藏层的神经数，和Cell的数量。
- $x_i,b_h,s_c$ 分别表示一个样本的一个维度，一个隐藏层神经元的输出和一个cell的输出

主要参数及处理算法

Layer Number
- 表示神经网络的深度
- 过深的网络容易造成过拟合
Layer Size
- 表示每层神经网络包含的神经元个数
- 同样容易造成过拟合
TBPTT Length （for RNNs）
- Truncated Backpropagation Through Time Length
- 延时间反响传播的截断时长
- 表示进行反向传播间隔长度，i.e. 使用 $N$ 个输入的结果对参数进行调整，实质效果反应为通过N个输入计算输出
- 例如：在文本生成中，对“老司机翻车啦！”，当N=4:
  - $input_0 = “老司机翻”, label_0 = “司机翻车”$
  - $input_1 = “司机翻车”, label_1 = “机翻车啦”$
Epoch Number
- 表示总体循环次数
- 每遍历一次全样本集为1次Epoch
Example Length：
- 表示输入样本的长度
- 在文本生成中表示输入的文字的长短。
Mini Batch Size:
- 最小批处理数量
- 表示系统并发处理的样本（example/sentence）个数
- 一般设为8的倍数，方便GPU运算单元处理
- 增大的优点：
  - 增加并发量，提高速度，对GPU运算效果更明显
  - 每次下降方向更准确，不易产生震荡（少走弯路）
- 增大的缺点：
  - 陷入局部最优？？？？？
  - 运算矩阵过大，内存爆炸
  - 因为矩阵过大，计算速度慢，参数更新也慢a
Optimization Algorithm:
- 参数矩阵优化算法
- 优化的参考范围是一个mini batch
- 优化算法：Stochastic Gradient Descent
- 用于优化SGD选参（如learning rate）的算法：
  - ADAM
  - RMSProp
  - Momentom
  - NAG
  - Adagrad
  - Adadelta
Initialization Algorithm:
- 参数矩阵初始化算法
- 在NN建立时使用
- 常用算法：
  - XAVIER(假定激活函数是线性的)
  - MSRA
Activation Functions
- Sigmoid：(0,1)
- tanh：(-1,+1)
- ReLu：max(0, $x_{s}$ )
- Ramp：max(-1,max(1, $x_{s}$ ))
Loss Functions
- Square：连续回归
- Log：二分类
- Hinge：二分类
- LogSoftMax：多分类
- MaxMargin：多分类