文本数据增强与同义句生成
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
文本数据增强三(回译,不同语种间的翻译)
一.中文文本数据增强(中文文本、同义句生成、扩充,增加,enhance、augment、text、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据...原创 2019-04-29 22:12:31 · 4177 阅读 · 3 评论 -
文本数据增强二(EDA、同义词替换-新增-交换-删除-生成同义句)
一.中文文本数据增强 (中文、同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据,另外...原创 2019-04-27 19:32:13 · 9927 阅读 · 4 评论 -
文本数据增强一(概述、中文、同义句生成、enhance、augment、text、nlp)
文本数据增强(扩充增加、中文、同义句生成、enhance、augment、text、nlp)AugmentText概述 - 相较于图像数据增强,文本数据增强,现在还是有很多问题的; - 往更严格的角度看,文本数据增强更像是同义句生成,但又不完全是,它是一个更大范围的概念; - 很多时候,需要文本数据增强,一个是常常遇到的数据不足,另一个就是数据不均衡。 ...原创 2019-04-09 23:46:33 · 12306 阅读 · 0 评论 -
文本数据增强四(马尔可夫marko(HMM))
一.中文文本数据增强(中文文本、同义句生成、扩充增加,主干提取,句子改写,enhance、augment、text、nlp、样本不均衡、语料不够、数据不足),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有20...原创 2019-07-25 00:26:56 · 1652 阅读 · 0 评论