def clean_str(string):
#半角英文特殊字符
string = re.sub(r"[A-Za-z&\*\.;\?!,:\-\'\^\`/\(\)]", "", string)
#去除中文特殊字符
string = re.sub(r"(~)", "", string)
string = re.sub(r"(《)", "", string)
string = re.sub(r"(》)", "", string)
string = re.sub(r"(@)", "", string)
string = re.sub(r"(¥)", "", string)
string = re.sub(r"(%)", "", string)
string = re.sub(r"(·)", "", string)
string = re.sub(r"(~)", "", string)
string = re.sub(r"(、)", "", string)
string = re.sub(r"(:)", "", string)
string = re.sub(r"(()", "", string)
string = re.sub(r"())", "", string)
string = re.sub(r"(ヽ)", "", string)
string = re.sub(r"(メ)", "", string)
string = re.sub(r"(ノ )", "", string)
string = re.sub(r"(#)", "", string)
string = re.sub(r"(【)", "", string)
string = re.sub(r"(】)", "", string)
string = re.sub(r"(:)", "", string)
string = re.sub(r"( )+", "", string)
string = re.sub(r"(。)+", "。", string)
string = re.sub(r"(?)+", "?", string)
string = re.sub(r"(!)+", "!", string)
string = re.sub(r"(;)+", ";", string)
string = re.sub(r"(,)+", ",", string)
#string = re.sub(r"( )+", "", string)
#string = re.sub(r"\s{2,}", "", string)
#中文空格是全角字符
string = re.sub(r"[0-9]{1,}", "N", string)
#所有的数字用N替换
return string.strip()
比较笨的中文预处理 python
最新推荐文章于 2023-11-06 11:13:28 发布