小样本KE

摘要:

分为三类:

exploiting higher-resource data更多的资源数据:使用内生或者外生的方法进行数据扩充知识增强

exploiting stronger models强大的模型:开发更健壮的模型,以更好地应对样本分布不均和新的不可见类。旨在提高模型学习能力,减少对样本的依赖

exploiting data and models together同时利用数据和模型:联合利用代表性样本鲁棒模型,使其易于快速适应低资源情景。旨在寻找更适合稀疏数据学习的策略。

介绍:

知识抽取(Knowledge extraction, KE):

       Named Entity Recognition (NER)命名实体识别

       Relation Extraction (RE)关系抽取

       Event Extraction(EE)事件抽取

The variations of domains, language, and tasks.任务难点:领域,语言,任务变化

好处:data-efficient(数据高效), scenario-adaptable(场景适应性), particularly friendly to real-world applications with sparse data(数据稀疏) and cold-start issues(冷启动).

其他综述Although several surveys on KE in the general scenario (e.g., NER [Li et al., 2022], RE [Wang et al., 2021a], EE [Xiang and Wang, 2019])

方法回顾:low-resource learning(低资源学习) and KE(知识抽取)

展望前景

知识抽取:

低资源场景:

  1. Long-tail Scenario(长尾):少数类数据充足
  2. Few-shot Scenario(少量样本):只有少量的标记样本。并不是所有类都包含在训练数据中,有不可见类。并且可见类和不可见类交叉。
  3. Zero-shot Scenario(零样本):不可见类

技术方案分类:

  1. Exploiting Higher-resource Data(利用高资源数据):
  • Weakly Supervised Augmentation(弱监督增强):弱/远程监督自动标注数据增加训练数据(优点:增加了有标注数据的数量;缺点:新增的标注数据包含大量的噪声)
  • Multi-modal Augmentation(多模态增强):引入多模态样本,补充文本的
  • Multi-lingual Augmentation(多语种增强):引入不同的语言样本扩充,增强数据,挑战是获取跨语言的表述。
  • Auxiliary Knowledge Enhancement(辅助知识增强):使用外部知识作为辅助,方便学习语义信息
  1. Text文本:已有的开放域模型。。。知识蒸馏
  2. Knowledge Graph知识图谱:FrameNet和事件抽取
  3. Ontology & Rule本体和规则:利用本体和规则作为限制和拓展,方便训练抽取
  1. Exploiting Stronger Models(利用强大的模型):
  • Meta Learning(元学习):?
  • Transfer Learning(迁移学习):迁移学习过的表示和模型,特别是从高资源到低资源,从而减少对标记数据的需求。
  1. class-related semantics(类相关语义):使低资源类受益于其他高资源类中可用的标记资源。(完全不懂)
  2. pre-trained language representations(预训练语言表示):这些语言表示是在BERT等未标记数据上训练的,并加载预训练参数进行微调。(不明白具体步骤)
  • Prompt Learning(提示学习):提示学习的核心思想是在输入中插入文本片段,即模板,并将分类任务转换为掩码语言建模问题。
  1. Vanilla Prompt Learning(先看,可能和抽取概念有关
  2. Augmented Prompt Learning
  1. Exploiting Data & Models Together模型和数据同时使用第二看
  • Multi-task Learning(多任务学习)
  1. NER, named entity normalization (NEN)(命名实体规范化)
  2. NER, RE
  3. NER, RE, EE
  • Formulating KE as QA/MRC:将KE任务定义为问答(QA) /机器阅读理解(MRC)问题
  • Retrieval Augmentation(检索增强):将检索集成到训练前的语言模型中
  1. Retrieval-based Language Models
  2. Few-shot Settings

基准测试和应用程序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值