import re
#去除表情符号[敲打]
def filter_emoji2(content):
content = str(content)
content2 = re.sub('\[.*?\]','',content)
return content2
#只提取中文英文和数字
def pick_cn(content):
content = str(content)
REG_CN ="[\u4e00-\u9fa5]";#包含中文英文数字
for i in content:
if re.match(REG_CN,i) != 'none':
return ''.join(re.findall(REG_CN,content))
else:
return 'none'
文本预处理去除表情符号,只提取中英文及数字
最新推荐文章于 2022-05-21 14:09:08 发布