常见处理
- 去重
- 数据增强
- 噪声数据处理:null,异常信息等
- 敏感信息过滤:手机,地址,身份证等信息
- 等等
字符串预处理
1)繁体转简体;
2)去除emoji表情;去除【微笑】类表情;
3) 大写转小写;
4)全角字符转半角字符;
5)去除两端空字符,中间空字符转换,多个空字符转单个空字符;
6)数字转换,主要涉及时间类较多时的任务(-);
7)规则转换:我是小明→ 我是某某 ,11-20位数字转 id等
...
数据拆分/数据划分
from sklearn.model_selection import train_test_split
train_data, dev_data = train_test_split(raw_data,random_state=1,test_size = 0.25)