在NLP工作中,为针对性的对有某些特征的文本数据进行模型训练,可以对文本数据进行一个数据清洗的预处理工作。
0.导入工具
import pandas as pd
import numpy as np
import re
1.打开文本数据集
df=pd.read_csv('.../文件名.csv')#读取文件信息
2.构建规则
d=re.compile('[\d]|[\u96f6\u4e00\u4e8c\u4e09\u56db\u4e94\u516d\u4e03\u516b\u4e5d\u5341\u767e\u5343\u4e07]')
3.将匹配到规则的文本信息删除
df = df.applymap(lambda x: x if d.search(str(x)) else np.nan)
df.dropna()
4.看一下结果
print (df)