给文本去噪

最新推荐文章于 2024-04-27 09:42:04 发布

Nano皮

最新推荐文章于 2024-04-27 09:42:04 发布

阅读量3.8k

点赞数 4

文章标签：自然语言处理

本文链接：https://blog.csdn.net/Nanopipi/article/details/112383785

版权

在文本分析前，通常需要去除噪声，如表情和连续标点符号。本文介绍了使用正则表达式进行文本清洗的方法，并展示了相关代码及运行结果。清洗后的文本更适合进行关键词提取。

摘要由CSDN通过智能技术生成

在做文本分析时，会有很多的“噪声”
例如表情，一连串的标点符号等等
所以在分析之前呢，要给文本洗洗澡😛

正则清洗

一般是用正则表达式，对文本进行清洗
话不多说，上代码喽

下面展示一些 代码片。

import re
from gensim import corpora,models
import jieba
import pandas as pd
# jieba.cut 生成generator
# 全模式分词
# 加载自定义词典
text = u'''
你“你不用去哪里，世界奔你而来。”🙏🏿
点个赞，
看的时候眼泪止不住的流，在城市里压抑了太久，原来真的有人过着梦想中的生活，一直以为在这个冬天遇到丁真是最美好的事，而忽略了丁真就是美好本身，一起去理塘吧，去看更多的风景，见心心念念的丁真
宝贝，小马一定可以跑第一，家乡一定会越来越好！希望你在自己的世界里永远快乐呀～山下有好多姐姐妹妹哥哥弟弟喜欢你，一直一直哦～以后有机会了我一定来理塘看看你的家乡。🥰🙏🏾
丁真成就了理塘！理塘也同样成就了丁真！
'''
# 数据清洗
# 正则表达式取中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filter_data = re.findall(pattern, text