中文文本数据增强-同义句生成
文章平均质量分 55
中文文本数据增强,即同义句生成。同义词替换方法,包括词典同义词替换,word2vec词向量同义词替换,深度学习同义词替换,纠错同义词替换,阅读理解同义词替换等;回译方法,包括翻译工具回译,在线翻译回译,自己训练模型回译;Seq2seq;NMT;GAN等,wei'wan'd
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
汉字字形/拼音/语义相似度(单字, 可用于数据增强, 特别是文本纠错csc)
汉字字形/拼音/语义相似度(单字, 可用于数据增强, CSC错别字检测识别任务(构建混淆集))原创 2024-02-21 09:46:25 · 454 阅读 · 0 评论 -
文本数据增强四(马尔可夫marko(HMM))
一.中文文本数据增强(中文文本、同义句生成、扩充增加,主干提取,句子改写,enhance、augment、text、nlp、样本不均衡、语料不够、数据不足),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有20...原创 2019-07-25 00:26:56 · 1638 阅读 · 0 评论 -
文本数据增强三(回译,不同语种间的翻译)
一.中文文本数据增强(中文文本、同义句生成、扩充,增加,enhance、augment、text、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据...原创 2019-04-29 22:12:31 · 4113 阅读 · 3 评论 -
文本数据增强二(EDA、同义词替换-新增-交换-删除-生成同义句)
一.中文文本数据增强 (中文、同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据,另外...原创 2019-04-27 19:32:13 · 9739 阅读 · 4 评论