给文本去噪

在文本分析前,通常需要去除噪声,如表情和连续标点符号。本文介绍了使用正则表达式进行文本清洗的方法,并展示了相关代码及运行结果。清洗后的文本更适合进行关键词提取。
摘要由CSDN通过智能技术生成

在做文本分析时,会有很多的“噪声”
例如表情,一连串的标点符号等等
所以在分析之前呢,要给文本洗洗澡😛

正则清洗

一般是用正则表达式,对文本进行清洗
话不多说,上代码喽

下面展示一些 代码片

import re
from gensim import corpora,models
import jieba
import pandas as pd
# jieba.cut 生成generator
# 全模式分词
# 加载自定义词典
text = u'''
你“你不用去哪里,世界奔你而来。”🙏🏿
点个赞,
看的时候眼泪止不住的流,在城市里压抑了太久,原来真的有人过着梦想中的生活,一直以为在这个冬天遇到丁真是最美好的事,而忽略了丁真就是美好本身,一起去理塘吧,去看更多的风景,见心心念念的丁真
宝贝,小马一定可以跑第一,家乡一定会越来越好!希望你在自己的世界里永远快乐呀~山下有好多姐姐妹妹哥哥弟弟喜欢你,一直一直哦~以后有机会了我一定来理塘看看你的家乡。🥰🙏🏾
丁真成就了理塘!理塘也同样成就了丁真!
'''
# 数据清洗
# 正则表达式取中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filter_data = re.findall(pattern, text
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值