论文笔记 | Simplify the Usage of Lexicon in Chinese NER

最新推荐文章于 2024-09-20 16:21:25 发布

期待成功

最新推荐文章于 2024-09-20 16:21:25 发布

阅读量1.8k

点赞数 3

分类专栏：笔记文章标签：自然语言处理

本文链接：https://blog.csdn.net/u011150266/article/details/117062711

版权

本文介绍了一种提高中文命名实体识别（NER）效率的方法，通过简化Lattice-LSTM中的词典使用，提出了SoftLexicon，它能更快地进行推理，同时保持或提高性能。该方法在字符表示层引入词典信息，解决了基于字符模型无法充分利用单词信息的问题，且易于与预训练模型结合。

摘要由CSDN通过智能技术生成

作者：刘锁阵
单位：燕山大学

论文地址：https://www.aclweb.org/anthology/2020.acl-main.528.pdf
代码地址：https://github.com/v-mipeng/LexiconAugmentedNER

背景介绍

Lattice-LSTM ¹在多个中文NER数据集上取得了新的基准测试结果。然而，Lattice-LSTM的模型比较复杂，限制了其在工业界的应用(需要实现实时NER响应)。

在本篇工作中，作者提出了一个简单但是有效的方法来将单词词典信息合并到字符表示中。对四个中文NER数据集的基准测试表明，该方法的推理速度比SOTA方法快6.15倍，而且性能更高。实验结果还表明，该方法可能很容易地与预训练模型BERT相结合。

简单介绍两个相关的工作

Softword特征

Softword技术最初被用于合并分词信息到下游任务中²。它通过嵌入对应的分词标签来增强字符表示：
$x_j^c \leftarrow [x_j^c; e^{seg}(seg(c_j))] \tag{1}$
$seg(c_j) \in \mathcal{y}_{seg}$ 表示由词分割器预测的字符 $c_j$ 的分词标签.
$e^{seg}$ 表示将分词标签嵌入到查找表中，通常 $y_{seg} = \{B, M, E, S\}$ .(Begin, Middle, End, Single)

Lattice-LSTM

Lattice-LSTM将词库信息整合到基于字符的神经NER模型中。相关内容此处不再过多赘述了，网上已有很多分析文章。

模型设计

作者提出了一个方法 $S o f t L e x i c o n$ ：通过简单地调整NER模型的字符表示层来引入词典信息。整个架构如图一所示：

首先，将输入序列中的每个字符映射到一个dense vector中。
接下来，构造 $S o f t L e x c i o n$ 特征，并且添加每个字符的表示。
然后，将添加的字符表示放入序列模型层和CRF层，并获得最终的预测结果。

字符表示层

对于基于字符的中文NER模型，输入句子被视为一个字符序列 ${c_1, c_2, \dots, c_n} \in \mathcal{v}_c$ , 这里 $\mathcal{v}_c$ 是字符字典。每个字符 $c_i$ 都使用一个dense vector(embedding)表示：
$x_i^c = e^c (c_i) \tag{4}$
$e^c$ 表示字符嵌入查找表。