论文笔记 | FLAT: Chinese NER Using Flat-Lattice Transformer

最新推荐文章于 2023-03-13 21:54:38 发布

VIP文章期待成功

最新推荐文章于 2023-03-13 21:54:38 发布

阅读量1.0k

点赞数 2

分类专栏：笔记文章标签：自然语言处理

本文链接：https://blog.csdn.net/u011150266/article/details/116445458

版权

作者：刘锁阵
单位：燕山大学

论文地址：https://arxiv.org/pdf/2004.11795.pdf
代码地址：https://github.com/LeeSureman/Flat-Lattice-Transformer

Character-word lattice结构对于解决中文NER问题是有效的，然而由于格子结构是复杂的和动态的，大多数现在的基于格子的模型很难完全利用GPU的并行计算能力，并且通常有着比较低的推断速度。

在本篇paper中，作者提出了FLAT：Flat-Lattice Transformer for Chinese NER，将格子结构转换为由位置区间组成的平坦结构。每个区间对应一个字符或潜在单词及其在原始格中的位置。通过使用Transformer和特定的位置编码方案，Flat可以充分利用格子信息，并具有出色的并行化能力。

背景介绍

使用Lattice的两种方式：

一种是设计一个模型与格子输入兼容，例如Lattice LSTM和LR-CNN。在Lattice LSTM中，如Figure 1(b)所示，采用了一个额外的单词单元对潜在单词进行编码，并使用注意机制在每个位置融合变量节点。LR-CNN使用CNN来在不同的窗口编码可能的单词。然而，RNN和CNN都很难构建长距离依赖模型。由于动态的lattice 结构，这些方法不能完全利用GPU的并行计算能力。
另一种方法是将格子转换为图，并使用GNN来进行编码，例如LGN和CGN。

在本篇论文中，作者提出了Flat Lattice Tranformer。

Transformer采用了全连接的注意力机制来对文本序列中的长距离信息进行建模，为了记录位置信息，引入了文本序列中每个token的位置表示。
并针对lattice结构设计了一个位置编码方案。

模型设计

在这里插入图片描述

将格子转换为平坦结构

在根据词典从文本中得到格子之后，将其展平。如Figure 1(c)所示，Flat-Lattice被定义为区间的集合，一个区间对应一个token，一个head和一个tail。

对于区间的相关位置编码

对于在格子中的两个区间 $x_i$ 和 $x_j$ ,他们有三种关系：

交叉(相交)
包含
分离

使用dense vector来对他们的关系进行建模。因为区间包含头部和尾部信息，所以不仅可以使用它表示两个token的关系，而且还能够表示一些更详细的信息，例如一个字符和一个单词之间的距离。
假定 $h e a d [i]$ 和 $t a i l [i]$ 表示区间 $x_i$ 的头部和尾部位置。显然，可以得到4种相关距离：

$d_{ij}^{hh} = head[i] - head[j]$
$d_{ij}^{ht} = head[i]-tail[j]$

最低0.47元/天解锁文章

期待成功

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
论文笔记 | FLAT: Chinese NER Using Flat-Lattice Transformer

作者：刘锁阵单位：燕山大学论文地址：https://arxiv.org/pdf/2004.11795.pdf代码地址：https://github.com/LeeSureman/Flat-Lattice-Transformer文章目录背景介绍模型设计将格子转换为平坦结构对于区间的相关位置编码实验结果Character-word lattice结构对于解决中文NER问题是有效的，然而由于格子结构是复杂的和动态的，大多数现在的基于格子的模型很难完全利用GPU的并行计算能力，并且通常有着比较低的推断速度
复制链接

扫一扫