【NLP之文本预处理】使用正达则式去除或替换无用信息

NLP小姐姐

于 2020-03-03 13:30:14 发布

阅读量1.3k

点赞数 2

分类专栏： NLP 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43439235/article/details/104630487

版权

文本预处理是建模分析前的重要步骤，包括文本清洗和分词等。正则表达式常用于去除无用信息，如在情感分析中移除邮箱等。本文将探讨如何利用正则表达式和Python的re库进行文本清洗，通过实例展示如何删除字符串开头和结尾的空白以及去除所有英文字母。

摘要由CSDN通过智能技术生成

文本预处理介绍

文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情，繁琐且涉及细节很多。预处理做的不好，对后面的建模分析等等都会有很大的影响。

对于自然语言的文本数据,处理过程一般包括文本清洗、分词等，其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。

接下来将会分别介绍中英文预处理中的重点环节，结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个（词频统计）实际任务。

一般来说,文本数据预处理的第一步是文本清洗，这个环节非常灵活。需要对任务的最终目标有一定的理解,针对不同的任务选择不同的处理方法，涉及的细节也非常多。

使用正则表达式去除或替换无用信息

对于不同的任务无关信息可能会有不同,比如做情感分析的时候文本中的邮箱信息就是一种无用信息，而在信息抽取时邮箱信息就会变得非常重要。

实战演练：

已知字符串变量my_string

请将my_string开头和结尾处的空白删去
使用Python的re库的sub()函数，根据正则表达式去除字符串中所有的英文字母，将处理完成的结果存入my_string
将匹配模式（正则表达式）存入变量pattern中

import re  
my_string

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。