嵌套命名实体识别研究进展论文阅读笔记


作者:余诗媛 郭淑明 黄瑞阳 张建朋 苏珂
郑州大学软件学院 国家数字交换系统工程技术研究中心

文献链接:https://kns.cnki.net/KXReader/Detail?invoice=eTE4W3fFBodV%2F0vbdNmh1AhQ%2BlFR8auSxOQnKgQiOJE6o3inX3kIY8tCAmvkmAcf98vbRyK3hDXqmK8cP5y82tLEomx3mMLolA2C3q9sWnvqFo6zkHon3Fb5Gu8HjlIMfETcgj%2Bjb2zWUV7MmcFvV5YgqK27opgj8d5%2Fwle%2B9do%3D&DBCODE=CJFD&FileName=JSJA2021S2001&TABLEName=cjfdlast2021&nonce=6B3FDC6ECA1F446BBEBF43DEC78C2E92&TIMESTAMP=1684899268076&uid=

概要

文章对嵌套实体识别技术进行综述,介绍就有代表性的方法和技术。

引言

作者简单提了下实体识别和信息抽取。深度学习的出现逐渐取代传统的方法,效果也得到很大提升,CoNNL2003和MSRA上的F1达到93.09%和94.35%(作者发刊之前的数据)。
以下是2023/5/24 CoNLL和MSRA的数据
CoNNL2003-2023
MSRA-2023/5/24
·····················································································································
ACE2004和ACE2005数据集中分别存在43.27%和37.35%的嵌套命名实体。
嵌套有两种类型

  • 多个非嵌套命名实体构成
    [郑州]ns[大学]nt医学院]nt
  • 非嵌套命名实体扩展
    [[郑州] ns大学]nt

Q差别很大吗??为什么还要分两种?
通常嵌套缺乏规律变化多,用基于规则的方法虽然准确率从高,但存在相同类型的嵌套命名实体识别困难、时间复杂度高、难以扩展到涉及长句子的大型数据集等问题。近期基于超图表示、序列标注、跨度等方法被陆续提出来解决问题。

嵌套问题定义和解决框架

  • 问题定义
    给定一个序列X={x1,x2,…,xn},预测Y={y1,y2,…,yn},但对于yn来说,每个yn是多标签的,yn={yn1,yn2,yn3,…,ynm}.标签有3个特征1)两两间可能存在依赖。2)标签数量不确定。3)标签数量随着嵌套类别增加指数增长(为什么是指数?)。
  • 解决框架
    获取有标签数据 >> 构建词语向量表示 >> 进行特征提取 >> 嵌套命名实体识别 >> 评估分类性能。 解决框架

基于超图的方法

基于跨度的方法

通过对句子的子序列进行分类来识别嵌套的命名实体。相比于SeqLab可以解决错误传播等问题。(关于SeqLab和SpanNER的对比有篇讲这个的文章Named Entity Re-/Recognition as Span Prediction)
最最基本的解决方法是:
解决方案
基于跨度的方法存在以下3个缺点:
1)负样本多(太多非实体,非实体间也没有上下文信息)。2)时间复杂度高。3)缺乏边界监督。

Xu 17

局部探测方法,通过将每个子序列编码成一个固定大小的表示来直接对句子的所有子序列进行分类。使用FOFE进行编码,使用使用FFNN预测实体。FOFE的作用是将变长编码转成定长编码方便FFNN处理(RNN、LSTM都擅长处理变长编码)。
FOFE-NER最主要的特征如下图,每个序列被拆分为上文Left、片段Segment、下文Right三部分(left+segment+right),这三部分先经过FOFE算法进行一轮编码(编码共两轮),然后输入FFNN中对片段Segment进行预测是否为实体。我们的该方法检查一个句子中的所有单词段(最大实体长度之内)。第一轮编码此时会有三种情况,
1、segment正好是实体 >> 进行预测PER、ORG
2、segment中部分word构成实体 >> 查看序列每个词,假如它蕴含在多个片段中,则只取最高分数或者最长所属的命名实体类型,通过Left和Right语义的融入可以知道“学医学”包含在多个片段内,则它的标签可以是跟最长的“中山大学医学部”相同。
ex:
中山大–学医学----部在广州
Left-----Segment----Right
3、segment完全不参与实体构成 >> 标为None
经过一轮编码后。把第一轮编码结果转成标签进行第二轮FOFE编码
Google has also recruited Fei-Fei Li, director of the AI lab at Stanford University
< ORG > has also recruited Fei-Fei Li, director of the AI lab at < ORG >
找出Fei-Fei Li实体,最后把两次预测分数进行一个线性插值,再decode得到结果。
所有word

FOFE-FFNN
Ps:个人倾向于认为从粒度最大的实体开始,逐渐到单字符实体的预测(Segment=1)

  • A Local Detection Approach for Named Entity Recognition and Mention Detection

Sohrab 18

提出神经穷举模型,列举所有可能的区域(或跨度)作为潜在的实体,并用深层神经网络对它们进行分类。从底层共享的Bi-LSTM层获得每个区域的表示,每个区域的表示由边界表示和平均单词在该区域内嵌入的内部表示连接而成,然后Relu再Softmax。
Bi-LSTM
拼接

  • Deep Exhaustive Model for Nested Named Entity Recognition

Fisher 19

提出了一种将词条或命名实体合并成嵌套结构的命名实体,然后分别对它们进行标记的方法。模型分两步走,一词合并成实体(没看懂)

Xia 20

提出了一种新的多粒度命名实体识别框架MGNER,它同时考虑了非嵌套和嵌套命名实体的识别。模型有检测器加分类器组成。检测器由三部分组成1)提取词特征词处理器。2)提取上下文特征的句处理器。3)检测器判断是否是实体。分类器结构1)和检测器相同的词处理器。2)实体特征获取器。3)分类器。
检测器+分类器

  • Multi-Grained Named Entity Recognition

Luan 19

(没看懂)

新模型新思路

基于边界的方法

Zheng 19

模型将嵌套命名实体识别分为了两个任务,首先用序列标注模型来发现命名实体的位置,然后用基于跨度的模型对序列标注发现的候选命名实体跨度进行实体类型的分类;采用了多任务损失算法同时训练两个任务,边界检测和命名实体分类预测。

Lin 19

提出假设:每个实体都有一个不能被不同实体共享的中心词,且每个实体的中心词对这种实体提供了充分的语义信息。将嵌套命名实体识别分为两步,首先用锚定器识别具有所有实体的相应语义类型的锚点词,然后用区域识别器识别出以不同锚点为中心的实体的边界。
描点选实体

Tan 20

边界预测+跨度分类。用多任务学习框架两部分联合训练,结合跨度分类模型推理得到的包含置信度Pspan的跨度tag C,使用这3个分数共同决定一个跨度是否是带有标签C的命名实体。

基于机器阅读理解的方法

Li 20

提出一种基于阅读理解的方法解决嵌套和非嵌套的问题。首先是数据集的构造,构造标签y对应的问题,问题可以是一个词,也可以是一句话等等。给模型输入X和q(y),就可以期望模型输出所有具有标签y的所有实体。有了问题q(y),一个训练实例三元组(Question, Answer, Context),也就是(q(y), Answer, X),这里Answer就是对应的所有实体。
ex:X=“北京欢迎你”,(q(y),Answer,X)=(LOC, x(1,2), “北京欢迎您”)
构造实体问题

  • A Unified MRC Framework for Named Entity Recognition

总结

挑战

1、标注数据获取困难:与传统命名实体识别数据集相比,其需要更为复杂的多标签注释方案。
2、中文嵌套命名实体结构复杂:如生物领域、地理领域、产品领域等。
3、泛化能力差:在不同数据和标签分布的真实场景中,训练一个具有良好泛化能力的嵌套命名实体识别模型是一个严峻的挑战。
4、实用性差:在许多应用场景中,嵌套命名实体识别系统必须处理用户生成的非正式文本。由于用户生成的文本简短且嘈杂,非正式文本的嵌套命名实体识别比标准数据更具挑战性。

探索方向

1、中文嵌套命名实体识别语料库建设:中文方面的嵌套命名实体语料仅有人民日报语料库。
2、利用更多维度语言特征增强嵌套命名实体识别效果:可通过引入更丰富的表征特征,并进行多策略组合;当前的嵌套命名实体识别工作集中于区域或句子层面,可考虑从整体篇章入手,统计全局信息和局部信息的关系来增强嵌套命名实体识别效果。
3、嵌套命名实体与关系联合抽取:嵌套命名实体中存在的额外信息可作为辅助特征来增强关系抽取的效果。

参考

[1] https://zhuanlan.zhihu.com/p/37389506
[2] https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/106184135
[3] 补充ing…

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值