『RNN 监督序列标注』笔记-第一/二章 监督序列标注
监督序列标注(Supervised Sequence Labeling)与传统的监督模式分类(supervised pattern classification)的不同之处在与样本点不能被当作是独立的。
序列标注的特点
- 输入和标签都具有强相关性。
- 输入与标签的对应关系是未知的。
RNNs的优点与缺陷
优点
- 上下文信息非常灵活(因为它们能够学习处哪些需要存储以及哪些需要遗忘)。
- 能够支持各种形式的数据表达。
- 即使序列存在扭曲失真也能进行识别。
标准 RNN的缺点
- 使其存储长期信息非常困难。
Long Short-Term Memory (LSTM; Hochreiter and Schmidhuber, 1997) is a redesign of the RNN architecture around special ‘memory cell’ units.
- 它只能够单向学习上下文信息。(对于序列预测很有用,但是对于序列标注,往往利用上下午的双向信息会更有效)
Bidirectional LSTM (Graves and Schmidhuber, 2005b) combines the benefits of long-range memory and bidirectional processing. - 单维度序列。
Multidimensional LSTM (Graves et al., 2007) - 训练非常耗时。
Hierarchical subsampling RNNs (Graves and Schmidhuber, 2009)
监督序列标注
- 监督学习:用许多『输入-标签对』来进行训练。
- 增强学习:仅仅利用标量值训练。
- 无监督学习:没有训练信号。
模式分类 (Pattern Classification)
模式分类的对象是非序列数据,是序列数据的基础。
概率分类(Probabilistic Classification)
判别函数法(Discriminant Functions)
分类器直接给出类别标签,如:SVM。
概率分类法(Probabilistic Classification)
得出属于每一类的概率,其中选取概率最大值对应的类别 h(x) :
h(x)=argmaxkp(Ck|x)
- 概率值的大小可以用于观察置信度的相对值。
- 能够与其它概率算法联合使用。
训练概率分类器
令训练集为 S ,分类器参数为
对于一个新输入的样本 x , 后验概率分布为:
而 ω 的维度非常高,上述积分式求解十分困难。又由于:
p(Ck∣∣x,S)≈p(Ck∣∣x,ωMA