分析高阶问题

最新推荐文章于 2022-10-14 07:03:03 发布

poilkj110

最新推荐文章于 2022-10-14 07:03:03 发布

阅读量1.3k

点赞数

分类专栏：高阶文章标签：高阶LSTM

本文链接：https://blog.csdn.net/poilkj110/article/details/78648929

版权

高阶专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要：当前方法经常使用单阶设定当处理序列标签任务。在本工作中，order意味着标签的个数，包含在每个时间步中的预测。高阶模型试图去捕获更多依赖信息在这些标签之间。我们首先提出一个简单方法就是低阶模型可以简单的拓展到高阶模型。惊奇的是，高阶模型被认为捕获更多依赖信息当增加阶数时表现更差。我们认为强迫网络去学习复杂结构会导致过拟合。为了处理这个问题，我们提出一种方法能够结合低阶和高级信息一起去解码。提出的方法，多阶解码（MOD），使用给一个剪枝技术保持着可拓展性到高阶模型。MOD实现更高精度比现存的单阶设定方法。
1 简介
现存方法对于序列标记问题作出预测时只考虑了当前记号的标签，也就是单阶设定。经过RNN的特点能够记忆历史信息，输出标签的结构化依赖没有捕捉。这个限制对于模型精度是有害的。
我们给出一些具体的解释关于“阶”项和其他相关想。我们本文“阶”意味着包含每个时间步的预测的标签个数。如图一所示：这里写图片描述
一个2阶标签在具体时间步是一个双字母组，包含之前的标签和当前标签。更高阶标签被定义以一种相似的方式。一个模型使用n阶标签训练和只使用n阶信息去解码，被认为是一个朴素n阶模型。
现在，模型被提出去捕获对于RNN中的标签依赖。例如Collobert提出一种方法基于卷积神经网络，可以使用动态规划在训练和测试阶段（想CRF层）来捕获标签依赖。进一步，huang提出LSTM-CRF通过结合LSTM和CRF对于结构化学习，可以精确捕获两个邻接标签的标签依赖。
然而这不精确如何建模三个或者更多的标签的依赖性或者使用依赖信息。我们首先提出一个简单方法来拓展低阶模型到高阶模型，其被认为捕获更多标签依赖信息。惊讶的是，随着模型阶数上升，模型表现更差。认为是模型学习复杂的结构导致过拟合Sun(2014).为了解决问题，我们提出MOD，结合多阶信息从这些朴素模型去解码。
本文的贡献在于：
* 提出简单的方式实现朴素高阶模型。
* 提出方法结合低阶和高阶信息去解码。提出的方法变的可拓展从低阶模型到高阶模型使用剪枝技术。

2 朴素高级模型
一个朴素高阶模型只使用对应n阶信息去解码。以2阶模型为例，对于每个词我们结合它之前的标签和它当前标签产生一个双字母组标签作为它新的标签去预测。隐藏模型使用新的双字母组标签集来训练。当解码时，我们能给定双字母组标签的分布从RNN的softmax输出，想LSTM对于每个词。然后我们最大概率的双字母组标签。词的最终预测标签是从双字母组标签中第二个原始的标签。
当模型阶数增加时，模型学习更多的标签依赖。然而，模型表现变差。一个直觉的原因去解释是增加标签集的尺寸使得对一个词的预测变难。另一种潜在原因是负责结构导致过拟合。Sun 2014说明复杂结构泛化能力在结构化预测中有害。
为处理这问题，提出结合低阶和高阶信息去解码。在解码时使用低阶和高阶信息，提出的方法称为MOD。

3 多阶解码（MOD）
3.1 来源
解决上述问题，提出新的解码方式。对于RNN模型，目标是去找最大概率的标签序列。给定观察值（例如在NLP中就是词）的序列x1,x2,….xT, 和标签序列，y1,y2, ….yT, T表示句子长度，想估计以观察值为条件的标签的共同概率为：

p (y 1, y 2, \cdot \cdot \cdot, y T | x 1, x 2, \cdot \cdot \cdot, x T)

$p(y_1, y_2, \cdot \cdot \cdot , y_T| x_1, x_2, \cdot \cdot \cdot ,x_T)$
yt表示在时间步t时观察的标签。
若我们直接地以上述共同概率建模，需要估计的参数个数特别多，导致问题不可解。现存研究做出马尔科夫假设来减少参数空间。我们也做n阶马尔科夫假设。不同于现存的典型工作，我们分解原始共同概率到局部n阶共同概率。这些局部n阶共同概率的乘积被用来近似原始共同概率。进一步，我们分解每个局部n阶共同概率到从1阶到n阶的概率，以便于我们能有效结合多阶信息。

p (y 1, y 2, \cdot \cdot \cdot, y T | x 1, x 2, \cdot \cdot \cdot, x T) = p (y 1, y 2 | x 1, x 2) \times p (y 2, y 3 | x 2, x 3) \times \cdot \cdot \cdot = p (y 1 | x 1, x 2) \times p (y 2 | y 1, x 1, x 2) \times p (y 2 | x 2, x 3) \times p (y 3 | y 2, x 2, x 3) \times \cdot \cdot \cdot = \prod t = 1 T - 1 (p (y t | x t, 2) \times p (y t + 1 | y t, x t, 2))

$p(y_1, y_2, \cdot \cdot \cdot , y_T |x_1, x_2, \cdot \cdot \cdot , x_T) = p(y_1, y_2| x_1, x_2)\times p(y_2, y_3|x_2, x_3)\times \cdot \cdot \cdot = p(y_1|x_1, x_2) \times p(y_2|y_1, x_1, x_2) \times p(y_2 | x_2, x_3)\times p(y_3|y_2, x_2,x_3) \times \cdot \cdot \cdot = \prod_{t=1}^{T-1}(p(y_t|x_{t,2}) \times p(y_{t+1}|y_t, x_{t,2}))$
其中

xt,n $x_{t,n}$ 表示x中长度n的子序列从xt 开始，例如，xt, x_t+1, … x_t+n-1,

p(yt+1|yt,xt,2) $p(y_{t+1}|y_t, x_{t,2})$ 表示给定

xt,2 $x_{t,2}$ 从yt到y_t+1的转移概率。上述式子第一步说明如何分解原始共同概率到局部共同概率。这些局部共同概率的连乘被来用近似原始共同概率，这个假设背后的直觉是：一个序列每个部分的概率越高，那么整个标签序列概率越高。进一步，在2nd 步，我们分解每个局部共同概率到不同阶数的概率，以便于我们结合多阶信息。
进一步我们推出对于一般n阶例子的公式：

p (y 1, y 2, \cdot \cdot \cdot, y T | x 1, x 2, \cdot \cdot \cdot, x T) = p (y 1, y 2, \cdot \cdot \cdot, y n | x 1, n) \times \cdot \cdot \cdot = \prod t = 1 T - n + 1 (p (y t | x t, n) \times \cdot \cdot \cdot \times p (y t + n - 1 | y t, t + n - 2, x t, n))

$p(y_1, y_2,\cdot \cdot \cdot ,y_T| x_1, x_2, \cdot \cdot \cdot , x_T) = p(y_1, y_2,\cdot \cdot \cdot , y_n|x_{1,n}) \times \cdot \cdot \cdot = \prod_{t=1}^{T-n+1}(p(y_t|x_{t,n})\times \cdot \cdot \cdot \times p(y_{t+n-1}|y_{t, t+n-2}, x_{t,n}))$
其中

yt,n $y_{t,n}$ 表示从yt开始的长度为n的y的子序列。使用这个解码来历，所有不同级信息来自1阶到n阶都可以共同建模。
3.2 可拓展性解码使用剪枝
一个动态规划算法被用来实现MOD，多阶依赖被共同考虑到在这个算法中。原始的，我们应该考虑所有可能的转移概率对于每个位置，意味着搜索空间非常大因为有太多高阶标签。
为了可拓展性，我们采用剪枝技术来减少搜索空间，使用低阶信息去剪枝高阶信息的搜索空间，我们简单地使用1阶概率来减少每个位置的标签候选集，以便于使用前K个候选集来生成搜索空间对于更高阶依赖。例如，假设任务有50个标签和每个位置只保留前5标签来生成搜索空间对于3阶依赖，那么搜索空间被缩减50^3 到5^3.
出处:Does Higher Order LSTM Have Better Accuracy in Chunking and
Named Entity Recognition?

poilkj110

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分析高阶问题

摘要：当前方法经常使用单阶设定当处理序列标签任务。在本工作中，order意味着标签的个数，包含在每个时间步中的预测。高阶模型试图去捕获更多依赖信息在这些标签之间。我们首先提出一个简单方法就是低阶模型可以简单的拓展到高阶模型。惊奇的是，高阶模型被认为捕获更多依赖信息当增加阶数时表现更差。我们认为强迫网络去学习复杂结构会导致过拟合。为了处理这个问题，我们提出一种方法能够结合低阶和高级信息一起去解码。提出
复制链接

扫一扫

专栏目录