TNU深度学习笔记2

最新推荐文章于 2019-03-17 21:49:25 发布

AlmostFree

最新推荐文章于 2019-03-17 21:49:25 发布

阅读量569

点赞数

分类专栏： Machine Learning 文章标签：深度学习框架

本文链接：https://blog.csdn.net/u013508213/article/details/52634331

版权

Machine Learning 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

Training Recurrent Neural Network
Introduction of Structured Learning

Training Recurrent Neural Network

这节课主要讲了怎么训练RNN，用的方法是BPTT（Backpropagation through time）。
这里写图片描述
RNN的目标是训练参数 $w^h,w^o,w^i$ 。

BPTT的做法是，先将RNN随着时间展开，如下图：
这里写图片描述
展开之后像训练普通神经网络一样做Backpropagation就行了，唯一的区别在于RNN输入是一个连续的序列，输出也是一个连续的序列，因此在每个输出的y上都要做Backpropagation的初始化。

但是训练RNN没有这么容易，原因是：
这里写图片描述

可能的解决方法有：

Clipping the gradients，即给gradient的值做限定。
Advanced optimization technology(NAG,RMSprop)
LSTM(or other simpler variants)
Better initialization

Introduction of Structured Learning

这节课介绍了Structured Learning和解决Structured Learning问题的基本框架。

Structured Learning

概念：
这里写图片描述

一些例子：
这里写图片描述

Unified Framework

解决Structured Learning的基本框架：
这里写图片描述

Three Problems

为了表示除以上框架，有三个问题需要解决：
这里写图片描述

这里联系到了HMM，并推荐了Viterbi Algorithm。

Viterbi Algorithm

给定观察空间 $O=\{o_1 , o_2 , ... ,o_N\}$ ，状态空间 $S=\{s_1, s_2,...,s_K\}$ ，一个观察序列 $Y=\{y_1,y_2,...,y_T\}$ 。转移矩阵 $A \in R^{K*K}$ ， $A_{ij}$ 表示从状态 $s_i$ 转移到 $s_j$ 的概率。放射矩阵 $B \in R^{K*N}$ ， $B_{ij}$ 表示观察点 $o_j$ 来自状态 $s_i$ 的概率。路径 $X=\{x_1,x_2,...,x_T\}$ 表示一个序列产生观察序列 $Y=\{y_1,y_2,...,y_T\}$ 的状态序列。初始化的 $\pi \in R^{K*1}$ ，表示 $x_1==s_i$ 的概率。

在这个DP问题中，我们用到两个二维数组 $T_1,T_2 \in R^{K*T}$ 。
$T_1[i][j]$ 表示到 $j$ 的最可能的路径 $\hat{x}=\{\hat{x_1},\hat{x_2},...,\hat{x_j}\}$ ，并且 $\hat{x_j}=s_i$ 的概率。
$T_2[i][j]$ 保存了这条路径。
状态转移方程：
$T_1[i][j] = max_k(T_1[k][j - 1]*A_{k_i}*B_{iy_j})$ ，
$T_2[i][j] = argMax_k(T_1[k][j - 1]*A_{k_i}*B_{iy_j})$

算法的输入输出：
这里写图片描述

伪代码：
这里写图片描述

AlmostFree

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TNU深度学习笔记2

Training Recurrent Neural NetworkIntroduction of Structured LearningStructured LearningUnified FrameworkThree ProblemsViterbi AlgorithmTraining Recurrent Neural Network这节课主要讲了怎么训练RNN，用的方法是BPTT（Bac
复制链接

扫一扫