《FLAT: Chinese NER Using Flat-Lattice Transformer》论文详解

璋湃王不二

已于 2024-09-25 17:47:43 修改

阅读量582

点赞数 25

分类专栏：深度学习文章标签： transformer 深度学习人工智能 nlp

于 2024-09-20 16:26:24 首次发布

本文链接：https://blog.csdn.net/bbblllsss/article/details/142388873

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

作者首先讨论了《Chinese NER Using Lattice LSTM》中关于lattice网络的应用，以及lattice网络所具有的优缺点。

在 Lattice LSTM 中，由于格子结构的复杂性和动态性，所以很难完全利用GPU资源进行并行计算，推理速度比较低。
作者基于上述问题，提出了 Flat-Lattice Transformer 模型。
- Transformer 使用注意力机制替换掉了原来的 LSTM，既满足的长距离信息建模，也提升了计算效率。
- Flat-Lattice 部分则是针对原来的 lattice 进行了改进，将词组信息编入了 transformer 的位置信息中，进行了信息的扁平化。
作者认为lattice的相对位置，对于NER识别来说很重要，所以使用了两个编码，head position encoding 和 tail position encoding 来对每一个 token 进行位置标记。对于序列中的任意两个 token $x_i$ 和 $x_j$ ，他们存在三种关系：相交、包含和相离，所有的关系均可以使用他们的头和尾两两组合来确定，例如 $x_i$ 和 $x_j$ 的四种关系可以表示为：

$d_{ij}^{(hh)} = head[i] - head[j]$

$d_{ij}^{(ht)} = head[i] - tail[j]$

$d_{ij}^{(th)} = tail[i] - head[j]$

$d_{ij}^{(tt)} = tail[i] - tail[j]$

$d_{ij}^{(hh)}$ 表示 i 的 head 与 j 的 head 的距离，其他三项含义相似。则不同跨度之间的最终相对位置由以上四个距离进行简单非线性转换。

$R_{ij} = ReLU( W_r (P_{ d_{ij}^{(hh)} } \oplus P_{ d_{ij}^{(th)} } \oplus P_{ d_{ij}^{(ht)} } \oplus P_{ d_{ij}^{(tt)} }) )$

其中 $W_r$ 是可学习权重， $\oplus$ 表示拼接运算。 $P_d$ 的计算方式与 Transformer 一样。

$P_d^{(2k)} = sin(d/10000^{2k / d_{model}})$

$P_d^{(2k+1)} = cos(d/10000^{2k / d_{model}})$

在计算时，将 d 替换成 $d_{ij}^{(hh)}$ 等， $d_{model}$ 和 k 则分别表示 token编码的维度 和 token编码的维度的索引。然后再使用一种自注意力的变体来利用位置编码。

$A^*_{i,j} = W^T_q E^T_{x_i} E_{x_j} W_{k,E} + W^T_q E^T_{x_i} R_{ij} W_{k,R} + u^T E_{x_j} W_{k,E} + v^T R_{ij} W_{k,R}$

其中 $W_q,W_{k,R},W_{k,E} \in R^{d_{model} * d_{head}}$ ， $\in R^{d_{head}}$ ，都是可训练权重。 $d_{model} = H * d_{head}$ ， $d_{head}$ 是每个头的维度， $d_{model}$ 是模型输入的空间向量维度。例如： $d_{model}=768$ ，如果使用 $H = 12$ 个头，那么 $d_{head} = 768/12 = 64$ ，意味着每个头有64个输出维度。

然后使用 $A^*$ 替换掉注意力机制中的 A，就得到了新的模型。（其实就是在Transformer 模型的基础上调整了注意力权重的计算逻辑）。

$Att(A^*,V) = softmax(A^*) V$