[论文阅读笔记57]NLP低资源的方法综述

本文综述了低资源自然语言处理的最新方法,包括使用数据增强和远程监督策略生成标签,跨语言标注以利用高资源语料,以及噪声标注学习应对自动标注的不准确性。此外,探讨了预训练语言表示、领域特定预训练和多语言模型在低资源设置中的应用。未来的研究方向聚焦于解决开放问题和进一步提升低资源条件下的NLP性能。
摘要由CSDN通过智能技术生成

1.题目

A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios
萨尔大学

2.摘要

(1)给出了当前致力于低资料NLP的广泛性与结构性概述;
(2)分析低资源设置的不同方面;
(3) 突出介绍必要的资源和数据假设,作为对从业者的指导;
(4) 讨论开放问题与未来的展望。

低资源的总体:

image-20210531102810554

3.相关综述

image-20210531151518360

生成额外标签数据

  • Data Augmentation–
    使用有标注的样本信息,去扩展更多的样本信息;
  • Distant & Weak Supervision – 远程监督
    用一些策略去标签样本信息;它包括后面三种方法(跨语言标注)
  • Cross-Lingual Annotation Projections
  • Learning with Noisy Labels – 噪音标注学习(包括Non-Expert Support)
  • Non-Expert Support

Transfer Learning

  • Pre-Trained Language Representations
  • Domain-Specific Pre-Training
  • Multilingual Language Models
    来自非NLP领域的启发
  • Meta-Learning
  • Adversarial discriminators

4. 文本数据增强

token层:通过用等价词替换单词来实现;

synonyms(同义词),entities of the same type(相同类型的实体),words that share the same morphology(具有相同形态的单词);

sentence parts方法

manipulation of parts of the dependency tree(操作依赖树的部分),
simplification of sentences by removal of sentence parts(通过删除句子部分来简化句子),inversion of the subject-object relation(主体-对象关系的反转)

whole sentences方法

back-translation(回译)—应用于abstract summarization, table-to-text generation,分类

5. 远程监督

6. 跨语言标注

使用高资源语料训练分类器,使用并行语料库,然后将未标记的低资源数据与高资源语言中的等价数据对齐,其中可以使用上述分类器获得标签。

7. noise标注

由机器自动去生成标注,都会存在或多或少的noise的,这个就涉及到noise学习。
总结为两类:noise filtering and noise modeling。
噪声过滤方法从训练数据中删除具有高概率被错误标记的实例。通过概念的阈值,二分类, reinforcement-based agent;还有软件过滤。
噪声建模,常见的模型是估计干净标签和有噪声标签之间关系的混淆矩阵。

分类器不直接在有噪声标记的数据上进行训练。而是附加一个噪声模型,将“噪声”转移到“清洁标签”分布。

迁移学习(这个可以研究NLP的预训练那一块内容)

总结:低资源大部分情况下是解决资源的相关问题,这里提到数据的扩展与迁移学习两种。这篇与论文阅读笔记08Generalizing from a Few Examples:A Survey on Few-Shot Learning,研究的出发点相同,都是想在人力少的情况下去完成一些事情。
这里没有太多看到与知识图谱,监督,主动学习等内容。按道理这些内容也是解决低资源的方案或模型来的。
接下来,可以研究一下Noise学习,这个在工程也是一个有好的东西。即使是人为去标准的样本也会有很多噪音,特别在某个专业领域,例如医学。

参考:
https://arxiv.org/pdf/2010.12309.pdf

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值