论文笔记：Simplify the Usage of Lexicon in Chinese NER Minlong

最新推荐文章于 2022-05-09 18:59:01 发布

无聊的人生事无聊

最新推荐文章于 2022-05-09 18:59:01 发布

阅读量2.9k

点赞数 2

分类专栏：信息科学文章标签： NER 论文笔记

本文链接：https://blog.csdn.net/wangpeiyi9979/article/details/102782954

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

文章目录

一、摘要
二、模型
三、实验结果

一、摘要

以前我们已经提到过一篇结合字典进行中文命名实体识别的文章《Chinese NER Using Lattice LSTM》. 这个方法能够一定程度解决分词错误。然而，这个方法有一个重要的缺陷，就是效率低下，其在源码的issue中也提到了，目前竟然不支持并行化。因此，这篇文章希望设计出一种更加有计算效率的方式。

二、模型

该论文主要是在底层字和词的表示上进行了创新。首先文章总结了Lattice Lstm成功的原因:

其保存了所有可能匹配的单词。
其可以将预训练好的word embedding嵌入到系统中。
模型具有attention机制自动给单词赋权重。

基于此三个方法，文章提出了一种新的对输入进行编码的方式。这样的方法是一种集合编码的方法。对每个字符c使用集合 $B (c), M (c), E (c), S (c)$ 编码其字符具有的词信息。编码规则如下

$B (c)$ 集合：包含所有以字符c为起始的词
$M (c)$ 集合：包含所有以字符c为中间字的词
$E (c)$ 集合：包含所有以字符c为结束字的词
$S (c)$ 集合：c单独组成一个词

如果集合为空则成员为None

举例来说:

suppose that ${c1, c2\}, \{c1, c2, c3\}, \{c2, c3, c4\}$ , Consider the sentence $s = \{c1, · · · , c5\}$ and and ${c2, c3, c4, c5\}$ match the lexicon. Then, for $c_2$ , $B(c2) = \{\{c2, c3, c4\}, \{c2, c3, c4, c5\}\}$ , $M(c2) = \{\{c1, c2, c3\}\}$ , $E(c2) = \{\{c1, c2\}\}$ , and $S(c2) = \{NONE\}$