Data augumentation in NLP

Data augumentation

  • 同义词替换:随机选取单词,使用 WordNet\NLTK\TextBlob API 查找同义词
  • 词嵌入替换:使用嵌入空间中最近的词替换(Gensim)
import gensim.downloader as api
model.most_similar('word', topn=5)
  • masked语言模型
    • 使用mask预测的结果 生成文本的变体(难以保留句子的原意)
  • 基于IF-IDF
    • IF-IDF中分数较低的单词是无意义的,可以进行替换
  • 回译(Back Translation)
    • english1 -》 French -》 english2,english2与english1表达相同的意思,english2作为english1的数据增强
    • 若使用N种目标语言,则采用均值预测
  • 文字表面转换:it’s => it is
  • 随机噪声注入
    • 拼写错误
    • 键盘临近字母错误
    • Unigram噪声
    • 空白噪声:使用占位符替换
    • 随机插入
      • 从不是停用词的句子中选择一个随机词 It is awesome
      • 找其同义词 awesome -> perfect
      • 插入随机位置 It is perfect awesome
    • 随机交换两个单词
    • 随机删除
  • Syntax-tree
    • 解析并生成原始句子的依存关系树
    • 使用规则对其进行转换并生成释义的句子 (主动=》被动句)
  • wordMixup
  • sentMixup:计算loss时,排除掉混合句子的比例即可?
  • 条件预训练语言模型:Not Enough Data? Deep Learning to the Rescue

Consistency Training

tips:

  • back translation: 语义相近,期望有相同的预测分布
  • 注入空白作为噪声?
  • 加入噪声后,如何计算原型点? 应为更高质量的句子分配更高权重,加权聚合=》sharpen
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值