前言
今天偶尔发现一篇关于低资源场景下知识抽取的综述,感觉还不错,分享给大家。
从非结构化文本中提取结构信息的知识提取 (KE) 经常受到数据稀缺和新出现的不可见类型(即低资源场景)的困扰。截至目前,许多关于低资源 KE 的方法已被广泛研究并取得了令人印象深刻的性能。这篇就对低资源场景中的 KE 进行了文献综述,并将现有工作系统地总结分为三种范式:
(1)利用更高资源的数据
(2)利用更强的模型
(3)利用数据和模型在一起
同时给了一些有前景的应用并概述了未来研究的一些潜在方向。
论文链接:https://arxiv.org/pdf/2202.08063v1.pdf
Preliminary on Low-resource KE
首先介绍一下什么是KE,比较常见的就是命名实体识别Named Entity Recognition (NER) 、关系抽取Relation Extraction (RE)、Event Ex- traction (EE)事件抽取。其实这些任务本质上都是分类任务。
但是在实际场景中,数据往往是低资源的,具体的可以归结为:
Long-tail Scenario :分类类别中只有少数类别有足够的标注样本,而大多数类别只有少的可怜样本
Few-shot Scenario、Zero-shot Scenario:就是常见的Few-shot 和Zero-shot的问题
看完了存在的上述问题,下面就来看看目前存在的一些方法,注意在下面的介绍中笔者都是高度写了其核心idea,至于一些关于该idea的具体实践paper,大家感兴趣的话可以去看论文中列出的一些文献
Exploiting Higher-resource Data
这个方法是借助内生或外生的辅助资源对原始小样本数据进行数据增强或知识增强。
(1)Weakly Supervised Augmentation
通过弱/远程监督自动生成更多的训练数据,比如利用知识库和一些启发式规则来自动重新标记语料库中的训练数据。但是这样生成的训练集可能包含很多噪声,所以作者在这里将此类方法归结为弱监督。关于这方面作者列举了一些paper,大家对这类idea感兴趣的可以去看看原论文,这里就说一篇比较新的paper吧
《BOND: bert- assisted open-domain named entity recognition with distant su- pervision》
其提出了一个two-stage框架, 在第一个stage的时候使用BERT来远程监督NER任务,在第二stage让模型去fit 训练集
(2)Multi-modal Augmentation
多模态(文本,图像,语音,视频等等)增强,通过引入其他模特的数据来增强当前数据的不足,这类idea的paper相对来说比较新,都是近几年才出现的,感兴趣的小伙伴可以看论文中给出的一些paper,笔者也写过一些多模态的综述
(3) Multi-lingual Augmentation
跨语言增强,就是使用其他语种来增强当前数据,其实广义上来讲这也是一种多模态方法
(4) Auxiliary Knowledge Enhancement
利用外部辅助知识来增强,具体的作者将该部分又细分为三类即文本、知识图谱、规则
文本:比如《Improving event detection via open-domain trigger knowledge》这篇是利用丰富的开放域事件触发知识来提供额外的语义支持进而解决事件抽取任务
知识图谱:这里就是利用一些已经存在的知识图谱来做知识增强
规则:这里就是五花八门的,利用规则等等建立联系,比较有意思,大家可以看下论文中提到的相关文献
Exploiting Stronger Models
这里是第二大类方法即通过更具有鲁棒性的模型来做,具体的就是开发更健壮的模型进而更好地应对样本分布不均和新的看不见的类别等问题。更强的模型有望提高学习能力,从而充分利用现有的小数据,减少对样本的依赖。
基于这个大的逻辑,作者也进行了一些归类,下面我们具体看看
(1) Meta Learning
相信大家对于Meta 学习不是很陌生了,其的出现主要是解决few-shot 任务的,这里的paper主要就是借鉴了Meta 学习的思想。
(2)Transfer Learning
利用迁移学习,具体的作者将其细分为两大类即Class-related Semantics和Pre-trained Language Representations,前者主要是让低资源的模型从高资源中进行迁移学习,后者大家就很熟悉了就是预训练模型bert等等
(3)Prompt Learning
这是一个最新很火的idea,不过现在好像也已经慢慢降温了,在这段时间还是出现了很多关于Prompt 思想的论文的,有时间笔者会写一篇这方面的文章
总结来说就是提示学习,将一些设计的模版作为输入放到模型中。
Exploiting Data & Models Together
最后一大类方法就是综合利用前两种思想
(1)Multi-task Learning
多任务学习,大家也应该比较熟悉了即通过共同利用任务通用的共性和任务特定的差异来同时学习多个相关任务,从而提高任务特定模型的学习效率和预测精度。
(2)Formulating KE as QA/MRC
将知识抽取任务转化为QA和MRC任务即将命名实体识别、关系抽取、事件抽取转化为在文本寻找spans,这样以后出现了新类型也可以通过寻找spans解决
(3)Retrieval Augmentation
这里是将检索引了进来,具体的作者又细分为Retrieval-based Language Models和Few-shot Settings,前者比如在生产的时候是去训练集里面检索,本质上将问题转化为学习一个相似函数,而不是生产一个word,这样难度就大大变小了;后者就是学习具有相同label样本的表征,类似idea的模型就是KNN-BERT
Benchmarks
这里作者给大家列举了一些低资源场景下知识抽取的公开数据集,如果大家有自己的idea想做实验的话,可以在其上面实验
潜在的研究方向
作者在最后也提出了些将来潜在的可研究方向
(1)Realistic Settings
这里主要讲一些研究基于的数据都不切实际,更应该多关注实际工业场景的数据
(2)Domain Adaptable
领域适应,比如在医学语料库上训练的低资源 KE 模型可能无法适应新兴的金融语料库,所以可以多研究一些对域适应具有鲁棒性的方法
(3)Neuro-symbolic
现在很多的方法都是基于深度学习网络的,这些网络都是黑盒的,不可控不可解释,于是可以考虑研究将显示的规则和深度学习网络结合的方法
(4)Unified KE
各个任务、数据集的KE都不一样,所以研究框架以统一的 KE 。
总结
(1)paper最后提到的那些潜在的研究方向其实是NLP领域一些常见通用的研究方向。
(2)总的来说paper中列举的一些方法都是大家日常常见的,作者在这里对其进行了归纳总结,使得我们在学习的时候有一个总体的框架逻辑,有了这个picture,我们在做具体的技术选项时候就更加清晰了。
关注
欢迎关注,下期再见啦~
欢迎关注笔者微信公众号:
github:
Mryangkaitong · GitHubhttps://github.com/Mryangkaitong
知乎: