文本分类课件_文本数据增强:撬动深度少样本学习模型的性能

5c3a8893d26e6cbbd6997bb92249a8ac.png

本人主要关注NLP与深度学习这个交叉领域,因此本文从NLP领域涉及的目标场景出发,介绍文本数据增强的概念、相关技术手段以及展望。

本文目录:

1.文本数据增强理论介绍

 1.1数据增强是什么

 1.2 数据增强的应用场景

2.典型技术方案

 2.1 通用EDA

 2.2 基于TF-IDF的非核心词替换

 2.3 回译

 2.4 上下文文本生成

3.总结与展望

1.文本数据增强理论介绍

1.1 数据增强是什么

数据增强,是指对(有限)训练数据通过某种变换操作,从而生成新数据的过程。而文本数据增强则是针对文本数据进行操作。简而言之,就是利用数据增强这种手段扩大数据规模。

数据增强技术大体可分为以下两类:

• 句子层面增强:即在保持语义不变的情况下,变换文本的表达形式,例如回译、文本复述等手段;

• 词层面增强:即按照某种策略对文本局部进行调整,例如同义词替换、随机删除等。

1.2 数据增强的应用场景

(1)少样本学习场景

利用深度学习训练模型有时会遇到训练样本的数据量不能满足模型训练需求的情形,这就是少样本学习场景,这种场景较大概率会导致模型欠拟合。针对这种场景问题,研究学者和工程师自然而然想到了利用数据增强技术生成新样本进而扩充训练集,在有效降低人工成本的基础上促进模型性能的提升。近几年来也有许多研究验证了这种方法的有效性。

(2)半监督学习场景

从上一篇‘

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值