低资源场景下知识抽取的综述与展望

weixin_42001089

已于 2022-02-28 10:48:48 修改

阅读量1.1k

点赞数 1

文章标签：机器学习人工智能

于 2022-02-18 16:27:13 首次发布

本文链接：https://blog.csdn.net/weixin_42001089/article/details/123006216

版权

前言

今天偶尔发现一篇关于低资源场景下知识抽取的综述，感觉还不错，分享给大家。

从非结构化文本中提取结构信息的知识提取 (KE) 经常受到数据稀缺和新出现的不可见类型（即低资源场景）的困扰。截至目前，许多关于低资源 KE 的方法已被广泛研究并取得了令人印象深刻的性能。这篇就对低资源场景中的 KE 进行了文献综述，并将现有工作系统地总结分为三种范式：

（1）利用更高资源的数据

（2）利用更强的模型

（3）利用数据和模型在一起

同时给了一些有前景的应用并概述了未来研究的一些潜在方向。

论文链接：https://arxiv.org/pdf/2202.08063v1.pdf

Preliminary on Low-resource KE

首先介绍一下什么是KE，比较常见的就是命名实体识别Named Entity Recognition (NER) 、关系抽取Relation Extraction (RE)、Event Ex- traction (EE)事件抽取。其实这些任务本质上都是分类任务。

但是在实际场景中，数据往往是低资源的，具体的可以归结为：

Long-tail Scenario ：分类类别中只有少数类别有足够的标注样本，而大多数类别只有少的可怜样本

Few-shot Scenario、Zero-shot Scenario：就是常见的Few-shot 和Zero-shot的问题

看完了存在的上述问题，下面就来看看目前存在的一些方法，注意在下面的介绍中笔者都是高度写了其核心idea，至于一些关于该idea的具体实践paper，大家感兴趣的话可以去看论文中列出的一些文献

Exploiting Higher-resource Data

这个方法是借助内生或外生的辅助资源对原始小样本数据进行数据增强或知识增强。

（1）Weakly Supervised Augmentation

通过弱/远程监督自动生成更多的训练数据，比如利用知识库和一些启发式规则来自动重新标记语料库中的训练数据。但是这样生成的训练集可能包含很多噪声，所以作者在这里将此类方法归结为弱监督。关于这方面作者列举了一些paper，大家对这类idea感兴趣的可以去看看原论文，这里就说一篇比较新的paper吧

《BOND: bert- assisted open-domain named entity recognition with distant su- pervision》

其提出了一个two-stage框架, 在第一个stage的时候使用BERT来远程监督NER任务，在第二stage让模型去fit 训练集

（2）Multi-modal Augmentation

多模态（文本，图像，语音，视频等等）增强，通过引入其他模特的数据来增强当前数据的不足，这类idea的paper相对来说比较新，都是近几年才出现的，感兴趣的小伙伴可以看论文中给出的一些paper，笔者也写过一些多模态的综述

多模态预训练模型综述 - 知乎前言2021年诺贝尔生理学、医学奖揭晓，获奖者是戴维·朱利叶斯（DavidJulius）和阿代姆·帕塔博蒂安（Ardem Patapoutian），表彰他们在“发现温度和触觉感受器”方面作出的贡献。那作为算法从业者，我们该思考些什…https://zhuanlan.zhihu.com/p/435697429

(3) Multi-lingual Augmentation

跨语言增强，就是使用其他语种来增强当前数据，其实广义上来讲这也是一种多模态方法

(4) Auxiliary Knowledge Enhancement

利用外部辅助知识来增强，具体的作者将该部分又细分为三类即文本、知识图谱、规则

文本：比如《Improving event detection via open-domain trigger knowledge》这篇是利用丰富的开放域事件触发知识来提供额外的语义支持进而解决事件抽取任务

知识图谱：这里就是利用一些已经存在的知识图谱来做知识增强

规则：这里就是五花八门的，利用规则等等建立联系，比较有意思，大家可以看下论文中提到的相关文献

Exploiting Stronger Models

这里是第二大类方法即通过更具有鲁棒性的模型来做，具体的就是开发更健壮的模型进而更好地应对样本分布不均和新的看不见的类别等问题。更强的模型有望提高学习能力，从而充分利用现有的小数据，减少对样本的依赖。

基于这个大的逻辑，作者也进行了一些归类，下面我们具体看看

(1) Meta Learning

相信大家对于Meta 学习不是很陌生了，其的出现主要是解决few-shot 任务的，这里的paper主要就是借鉴了Meta 学习的思想。

（2）Transfer Learning

利用迁移学习，具体的作者将其细分为两大类即Class-related Semantics和Pre-trained Language Representations，前者主要是让低资源的模型从高资源中进行迁移学习，后者大家就很熟悉了就是预训练模型bert等等

（3）Prompt Learning

这是一个最新很火的idea，不过现在好像也已经慢慢降温了，在这段时间还是出现了很多关于Prompt 思想的论文的，有时间笔者会写一篇这方面的文章

总结来说就是提示学习，将一些设计的模版作为输入放到模型中。

Exploiting Data & Models Together

最后一大类方法就是综合利用前两种思想

（1）Multi-task Learning

多任务学习，大家也应该比较熟悉了即通过共同利用任务通用的共性和任务特定的差异来同时学习多个相关任务，从而提高任务特定模型的学习效率和预测精度。

（2）Formulating KE as QA/MRC

将知识抽取任务转化为QA和MRC任务即将命名实体识别、关系抽取、事件抽取转化为在文本寻找spans，这样以后出现了新类型也可以通过寻找spans解决

（3）Retrieval Augmentation

这里是将检索引了进来，具体的作者又细分为Retrieval-based Language Models和Few-shot Settings，前者比如在生产的时候是去训练集里面检索，本质上将问题转化为学习一个相似函数，而不是生产一个word，这样难度就大大变小了；后者就是学习具有相同label样本的表征，类似idea的模型就是KNN-BERT