nlp 中文数据预处理
此博文详细介绍中文数据预处理的过程并配上一定量的代码作为实例
数据加载(默认csv格式)
import pandas as pd
datas = pd.read_csv("./test.csv", header=0, index_col=0) # DataFrame
n_datas = data.to_numpy() # ndarray 转成numpy更好处理(个人喜好)
去除空行
def delete_blank_lines(sentences):
return [s for s in sentences if s.split()]
no_line_datas = delete_blank_lines(n_datas)
去除数字
DIGIT_RE = re.compile(r'\d+')
no_digit_datas = DIGIT_RE.sub('', no_line_datas)
def delete_digit(sentences):
return [DIGIT_RE.sub('', s) for s in sentences]
判断句子形式(简单句或者复杂句)
STOPS = ['。', '.', '?', '?', '!', '!'] # 中英文句末字符
def is_