小样本KE

尝试整理的小白

已于 2022-09-18 10:56:47 修改

阅读量550

点赞数

文章标签：人工智能深度学习

于 2022-09-18 00:57:52 首次发布

本文链接：https://blog.csdn.net/u012248837/article/details/126913104

版权

摘要：

分为三类：

exploiting higher-resource data更多的资源数据：使用内生或者外生的方法进行数据扩充或知识增强。

exploiting stronger models强大的模型：开发更健壮的模型，以更好地应对样本分布不均和新的不可见类。旨在提高模型学习能力，减少对样本的依赖。

exploiting data and models together同时利用数据和模型：联合利用代表性样本和鲁棒模型，使其易于快速适应低资源情景。旨在寻找更适合稀疏数据学习的策略。

介绍：

知识抽取(Knowledge extraction, KE)：

Named Entity Recognition (NER)命名实体识别

Relation Extraction (RE)关系抽取

Event Extraction(EE)事件抽取

The variations of domains, language, and tasks.任务难点：领域，语言，任务变化

好处：data-efficient（数据高效）, scenario-adaptable（场景适应性）, particularly friendly to real-world applications with sparse data（数据稀疏） and cold-start issues（冷启动）.

其他综述Although several surveys on KE in the general scenario (e.g., NER [Li et al., 2022], RE [Wang et al., 2021a], EE [Xiang and Wang, 2019])

方法回顾：low-resource learning（低资源学习） and KE（知识抽取）

展望前景

知识抽取：

低资源场景：

Long-tail Scenario（长尾）：少数类数据充足
Few-shot Scenario（少量样本）：只有少量的标记样本。并不是所有类都包含在训练数据中，有不可见类。并且可见类和不可见类交叉。
Zero-shot Scenario（零样本）：不可见类

技术方案分类：

Exploiting Higher-resource Data（利用高资源数据）：

Weakly Supervised Augmentation（弱监督增强）：弱/远程监督自动标注数据增加训练数据（优点：增加了有标注数据的数量；缺点：新增的标注数据包含大量的噪声）
Multi-modal Augmentation（多模态增强）：引入多模态样本，补充文本的
Multi-lingual Augmentation（多语种增强）：引入不同的语言样本扩充，增强数据，挑战是获取跨语言的表述。
Auxiliary Knowledge Enhancement（辅助知识增强）：使用外部知识作为辅助，方便学习语义信息

Text文本：已有的开放域模型。。。知识蒸馏
Knowledge Graph知识图谱：FrameNet和事件抽取
Ontology & Rule本体和规则：利用本体和规则作为限制和拓展，方便训练抽取

Exploiting Stronger Models（利用强大的模型）：

Meta Learning（元学习）：？
Transfer Learning（迁移学习）：迁移学习过的表示和模型，特别是从高资源到低资源，从而减少对标记数据的需求。

class-related semantics（类相关语义）：使低资源类受益于其他高资源类中可用的标记资源。（完全不懂）
pre-trained language representations（预训练语言表示）：这些语言表示是在BERT等未标记数据上训练的，并加载预训练参数进行微调。（不明白具体步骤）