『RNN 监督序列标注』笔记-第一/二章监督序列标注

最新推荐文章于 2024-07-15 10:00:33 发布

ycheng_sjtu

最新推荐文章于 2024-07-15 10:00:33 发布

阅读量9.5k

点赞数 2

分类专栏：科研点滴模式识别神经网络文章标签： RNN 监督学习序列标注模式识别

本文链接：https://blog.csdn.net/ycheng_sjtu/article/details/49789887

版权

本文探讨了监督序列标注与传统监督模式分类的区别，重点介绍了RNN在序列标注中的优缺点，包括其上下文灵活性和长期依赖问题。此外，还涉及序列标注的任务类型、概率分类的概念以及序列标注的评估指标。

摘要由CSDN通过智能技术生成

『RNN 监督序列标注』笔记-第一/二章监督序列标注

监督序列标注（Supervised Sequence Labeling）与传统的监督模式分类（supervised pattern classification）的不同之处在与样本点不能被当作是独立的。

序列标注的特点

输入和标签都具有强相关性。
输入与标签的对应关系是未知的。

RNNs的优点与缺陷

优点

上下文信息非常灵活（因为它们能够学习处哪些需要存储以及哪些需要遗忘）。
能够支持各种形式的数据表达。
即使序列存在扭曲失真也能进行识别。

标准 RNN的缺点

使其存储长期信息非常困难。

Long Short-Term Memory (LSTM; Hochreiter and Schmidhuber, 1997) is a redesign of the RNN architecture around special ‘memory cell’ units.
它只能够单向学习上下文信息。(对于序列预测很有用，但是对于序列标注，往往利用上下午的双向信息会更有效)
Bidirectional LSTM (Graves and Schmidhuber, 2005b) combines the benefits of long-range memory and bidirectional processing.
单维度序列。
Multidimensional LSTM (Graves et al., 2007)
训练非常耗时。
Hierarchical subsampling RNNs (Graves and Schmidhuber, 2009)

监督序列标注

监督学习：用许多『输入-标签对』来进行训练。
增强学习：仅仅利用标量值训练。
无监督学习：没有训练信号。

模式分类（Pattern Classification）

模式分类的对象是非序列数据，是序列数据的基础。

概率分类（Probabilistic Classification）

判别函数法（Discriminant Functions）

分类器直接给出类别标签，如：SVM。

概率分类法（Probabilistic Classification）

得出属于每一类的概率，其中选取概率最大值对应的类别 $h\left( x \right)$ :

h (x) = arg max k p (C k | x)

$h\left( x \right) = \arg \mathop {\max }\limits_k p\left( {{C_k}\left| x \right.} \right)$

概率值的大小可以用于观察置信度的相对值。
能够与其它概率算法联合使用。

训练概率分类器

令训练集为 $S$ ，分类器参数为 $\omega$ ，输入样本为 $x$ ，则有：

p (S | ω) = \prod (x, z) \in S p (z ∣ ∣ x, ω)

$p\left( {S\left| \omega \right.} \right) = \prod\limits_{\left( {x,z} \right) \in S} {p\left( {z\left| {x,\omega } \right.} \right)}$
对于一个新输入的样本

x $x$ ， 后验概率分布为：

p (C k ∣ ∣ x, S) = \int ω p (C k ∣ ∣ x, ω) p (ω ∣ ∣ S) d ω

$p\left( {{C_k}\left| {x,S} \right.} \right) = \int_\omega {p\left( {{C_k}\left| {x,\omega } \right.} \right)p\left( {\omega \left| S \right.} \right)d\omega }$
而

ω $\omega$ 的维度非常高，上述积分式求解十分困难。又由于：