string = re.sub(r"[^A-Za-z0-9(),!?’`]", " “, string) 除A-Za-z0-9(),!?’`外的字符,去除
string = re.sub(r’(.)\1+’, r’\1\1’, string) 匹配两个以上连续的字符,只保留两个连续的字符
string = re.sub(r”'s", " 's", string) 匹配 '跟一个空格字符,在’前加个空格
string = re.sub(r"'ve", " 've", string) 've 在’前加个空格
string = re.sub(r"n’t", " n’t", string) n’跟制表符,在n前加空格
string = re.sub(r"'re", " 're", string) 're 在’前加个空格
string = re.sub(r"'d", " 'd", string) 'd在’前加个空格
string = re.sub(r"'ll", " 'll", string) 'll在’前加个空格
string = re.sub(r",", " , “, string) ,前后各加空格
string = re.sub(r”!", " ! “, string) !前后 各加空格
string = re.sub(r”(", " ( “, string) (前后加空格
string = re.sub(r”)", " ) “, string) )前后加空格
string = re.sub(r”?", " ? “, string) ?前后 加空格
string = re.sub(r”\s{2,}", " ", string) 两个以上连续的空白符,删除
字符串预处理
最新推荐文章于 2021-04-26 14:11:15 发布