文本分析入门(一)

本文介绍了文本分析中的噪声移除,这是数据预处理的重要步骤。通过建立噪音词典并利用split或re.split方法去除冗余tokens。在情感分析中,某些词汇可能需要保留。此外,展示了如何使用正则表达式处理特定模式的噪声。
摘要由CSDN通过智能技术生成

今天在图书馆查了不少资料,感觉没什么特别好的学习途径。
主要通过博客,李航的《统计学习方法》,相关比赛代码来学习。

首先还是介绍几个名词,一个新领域总是有很多新名词。

  1. Tokenization:将文本转化为tokens的过程

  2. Tokens:在文本里的展示的单词或实体

  3. Text object:一个句子、短语、单词或文章

文本分析也好,平时做的数据挖掘也好,开始都是需要数据预处理。

文本分析点数据预处理的过程主要包括以下三个部分:

  1. 噪声移除

  2. 词汇规范化

  3. 对象标准化

这里我们首先介绍噪声移除。
所谓噪声移除就是把对我们来说没有用的冗余tokens去掉,例如语气词。
PS:在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义
比较常用的方法是通过先设置好噪音词典,然后遍历一下文本,去除那些被词典标注为噪音的tokens。

写一个噪声移除的函数

#先准备一个噪音词典,记录了你要除掉的tokens。
noise_list=['I','you','me','he','her','they','them','a','an','the','...']

def remove_noise(text):
    words=re.split('[, ]',text)
    remove_noise_words=[word 
  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值