数据的清洗
# package import
import re
def cleansing_word(operate_type, data):
"""
operate_type的意义
r'[\u4e00-\u9fa5]'表示只保留中文字符
r'[^\u4e00-\u9fa5]'表示去除全部中文字符
r'http://[a-zA-Z0-9.?/&=:]*'表示去除url
r'^([\w]+\.*)([\w]+)\@[\w]+\.\w{3}(\.\w{2}|)'表示去除email
r"[a-zA-Z0-9'!#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘'![\\]^_`{|}~\s]+"表示去除数字及特殊字符,只保留汉字
r'[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'表示去除不可见字符
u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])"表示特殊字符,只保留汉子,字母、数字
"""
# get pattern
pattern = re.compile(operate_type)
# get clean_word
clean_word = re.sub(pattern, "", data)
return clean_word