【NLP之文本预处理】使用正达则式去除或替换无用信息

文本预处理是建模分析前的重要步骤,包括文本清洗和分词等。正则表达式常用于去除无用信息,如在情感分析中移除邮箱等。本文将探讨如何利用正则表达式和Python的re库进行文本清洗,通过实例展示如何删除字符串开头和结尾的空白以及去除所有英文字母。
摘要由CSDN通过智能技术生成

文本预处理介绍

文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情,繁琐且涉及细节很多。预处理做的不好,对后面的建模分析等等都会有很大的影响。

对于自然语言的文本数据,处理过程一般包括文本清洗、分词等,其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。

接下来将会分别介绍中英文预处理中的重点环节,结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个(词频统计)实际任务。

一般来说,文本数据预处理的第一步是文本清洗,这个环节非常灵活。需要对任务的最终目标有一定的理解,针对不同的任务选择不同的处理方法,涉及的细节也非常多。

使用正则表达式去除或替换无用信息

对于不同的任务无关信息可能会有不同,比如做情感分析的时候文本中的邮箱信息就是一种无用信息,而在信息抽取时邮箱信息就会变得非常重要。

实战演练:

已知字符串变量my_string

  • 请将my_string开头和结尾处的空白删去
  • 使用Python的re库的sub()函数,根据正则表达式去除字符串中所有的英文字母,将处理完成的结果存入my_string
  • 将匹配模式(正则表达式)存入变量pattern中
import re  
my_string 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值