文本分析入门（一）

最新推荐文章于 2024-03-31 23:44:15 发布

青木长风

最新推荐文章于 2024-03-31 23:44:15 发布

阅读量3.4k

点赞数

分类专栏：数据挖掘文章标签：文本分析噪声去除

本文链接：https://blog.csdn.net/qq_39936389/article/details/89922285

版权

本文介绍了文本分析中的噪声移除，这是数据预处理的重要步骤。通过建立噪音词典并利用split或re.split方法去除冗余tokens。在情感分析中，某些词汇可能需要保留。此外，展示了如何使用正则表达式处理特定模式的噪声。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天在图书馆查了不少资料，感觉没什么特别好的学习途径。
主要通过博客，李航的《统计学习方法》，相关比赛代码来学习。

首先还是介绍几个名词，一个新领域总是有很多新名词。

Tokenization：将文本转化为tokens的过程
Tokens：在文本里的展示的单词或实体
Text object：一个句子、短语、单词或文章

文本分析也好，平时做的数据挖掘也好，开始都是需要数据预处理。

文本分析点数据预处理的过程主要包括以下三个部分：

噪声移除
词汇规范化
对象标准化

这里我们首先介绍噪声移除。
所谓噪声移除就是把对我们来说没有用的冗余tokens去掉，例如语气词。
PS：在情感分析中，语气词、感叹号是应该保留的，因为他们对表示语气程度、感情色彩有一定的贡献和意义
比较常用的方法是通过先设置好噪音词典，然后遍历一下文本，去除那些被词典标注为噪音的tokens。

写一个噪声移除的函数

#先准备一个噪音词典,记录了你要除掉的tokens。
noise_list=['I','you','me','he','her','they','them','a','an','the','...']

def remove_noise(text):
    words=re.split('[, ]',text)
    remove_noise_words=[word

最低0.47元/天解锁文章