数据收集
直接上一些别人整理的东西:
10大类、142条数据源,中文NLP数据集线上搜索开放
342个中、英文等NLP开源数据集分享
自然语言处理(NLP)数据集整理
数据增强
数据不够怎么办,常见的数据增强的方法:
一文了解NLP中的数据增强方法
NLP中数据增强的综述,快速的生成大量的训练数据
-
词汇替换
- 基于同义词典的替换
- 基于 Word-Embeddings 的替换
- 基于 Masked Language Model 的替换
- 基于 TF-IDF 的替换
-
Back Translation(回译)
-
使用正则表达式应用的简单模式匹配变换
-
随机噪声注入(句子中添加一些随机单词的拼写错误、占位符替换、句子打乱&#x