Data augumentation
- 同义词替换:随机选取单词,使用 WordNet\NLTK\TextBlob API 查找同义词
- 词嵌入替换:使用嵌入空间中最近的词替换(Gensim)
import gensim.downloader as api
model.most_similar('word', topn=5)
- masked语言模型
- 使用mask预测的结果 生成文本的变体(难以保留句子的原意)
- 基于IF-IDF
- IF-IDF中分数较低的单词是无意义的,可以进行替换
- 回译(Back Translation)
- english1 -》 French -》 english2,english2与english1表达相同的意思,english2作为english1的数据增强
- 若使用N种目标语言,则采用均值预测
- 文字表面转换:it’s => it is
- 随机噪声注入
- 拼写错误
- 键盘临近字母错误
- Unigram噪声
- 空白噪声:使用占位符替换
- 随机插入
- 从不是停用词的句子中选择一个随机词 It is awesome
- 找其同义词 awesome -> perfect
- 插入随机位置 It is perfect awesome
- 随机交换两个单词
- 随机删除
- Syntax-tree
- 解析并生成原始句子的依存关系树
- 使用规则对其进行转换并生成释义的句子 (主动=》被动句)
- wordMixup
- sentMixup:计算loss时,排除掉混合句子的比例即可?
- 条件预训练语言模型:Not Enough Data? Deep Learning to the Rescue
Consistency Training
tips:
- back translation: 语义相近,期望有相同的预测分布
- 注入空白作为噪声?
- 加入噪声后,如何计算原型点? 应为更高质量的句子分配更高权重,加权聚合=》sharpen