在做文本分析时,会有很多的“噪声”
例如表情,一连串的标点符号等等
所以在分析之前呢,要给文本洗洗澡😛
正则清洗
一般是用正则表达式,对文本进行清洗
话不多说,上代码喽
下面展示一些 代码片
。
import re
from gensim import corpora,models
import jieba
import pandas as pd
# jieba.cut 生成generator
# 全模式分词
# 加载自定义词典
text = u'''
你“你不用去哪里,世界奔你而来。”🙏🏿
点个赞,
看的时候眼泪止不住的流,在城市里压抑了太久,原来真的有人过着梦想中的生活,一直以为在这个冬天遇到丁真是最美好的事,而忽略了丁真就是美好本身,一起去理塘吧,去看更多的风景,见心心念念的丁真
宝贝,小马一定可以跑第一,家乡一定会越来越好!希望你在自己的世界里永远快乐呀~山下有好多姐姐妹妹哥哥弟弟喜欢你,一直一直哦~以后有机会了我一定来理塘看看你的家乡。🥰🙏🏾
丁真成就了理塘!理塘也同样成就了丁真!
'''
# 数据清洗
# 正则表达式取中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filter_data = re.findall(pattern, text