论文Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/eagleuniversityeye/article/details/104441907

文章目录

摘要
主要问题
MG Lattice模型
-----------------------
附:全文翻译
- 摘要
- 方法
- - Input Representation
  - Encoder
- 实验

本文为ACL19收录文章，GitHub地址：https://github.com/thunlp/Chinese_NRE，论文下载地址：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/acl2019_nre4chinese.pdf
在这里插入图片描述

摘要

目前主流中文关系提取的模式是使用具有基于字符或基于单词的输入的神经网络，并且大多数现有方法通常会因为分段错误和多义词的影响而影响性能。针对以上问题，我们提出了一种用于中文关系提取的多粒度格框架（MG Lattice），利用多粒度语言信息和外部语言知识来提高关系抽取的准确率。（1）我们将词级信息合并到字符序列输入中，从而避免了分段错误。（2）我们还借助外部语言知识对多义词的多种意义进行建模，以减轻多义词产生的歧义问题。通过在不同领域的三个数据集上进行的实验表明，我们的模型具有显著的优越性和鲁棒性。

主要问题

本文提出的模型主要针对关系抽取中的两个比较棘手的问题：

使用词向量还是字向量作为输入，使用字向量的问题是无法使用词级别的信息，而使用词向量则会因为分词错误导致错误传递，影响关系抽取的性能。
多义词问题，中文语料中经常会出现多义词，多义词会影响分词和实体识别的结果，从而导致错误的出现影响之后的关系抽取的效果。

下面是论文中列举的一个和多义词相关的例子，它很好的说明了多义词的出现对实体识别和关系抽取的影响。

在这里插入图片描述如上图所示，中文句子“达尔文研究所有杜鹃”具有两个实体，即“达尔文（Darwin）”和“ Dori（杜鹃）”，它们之间的关系在这种情况下，正确的切分是“达尔文（人物）/研究（动作）/所有（全部）/杜鹃（杜鹃）”。但是，随着切分的变化，句子的语义可能会完全不同。若分段为“达尔文（在达尔文）/研究所（研究所）/有（有）/杜鹃（杜鹃）”，句子的含义变成在一个名为达尔文的研究所里有杜鹃鸟，实体 “达尔文” 和实体 “杜鹃” 变成了所有权关系，这是错误的。因此，基于字符的方法和基于单词的方法都不能充分利用数据中的语义信息，多义词的出现可能会很大程度上影响分词的结果，从而影响最后实体识别和关系抽取的结果。