python 英语分词_基于Python NLTK库进行英文文本预处理

最新推荐文章于 2024-04-22 02:39:54 发布

weixin_39801356

最新推荐文章于 2024-04-22 02:39:54 发布

阅读量1.5k

点赞数

文章标签： python 英语分词

本文介绍了Python NLTK库在英文文本预处理中的应用，包括正则表达式分词、最大匹配算法、停用词去除、词干抽取、词形还原以及文本向量表示和特征选择等步骤。

摘要由CSDN通过智能技术生成

文本预处理是要文本处理成计算机能识别的格式，是文本分类、文本可视化、文本分析等研究的重要步骤。具体流程包括文本分词、去除停用词、词干抽取(词形还原)、文本向量表征、特征选择等步骤，以消除脏数据对挖掘分析结果的影响。

本文仅针对英文文本，中文文本暂时还没有研究过。介绍的全部都是基于Python2.7，利用NLTK库进行文本分类的过程。

文本分词

文本分词即将文本拆解成词语单元，英文文本以英文单词空格连接成句，分词过程较为简单。以下介绍几种方法。

正则表达式分词

以空格进行分词

>>> import re

>>> text = 'I was just a kid, and loved it very much! What a fantastic song!'

>>> print re.split(r' ',text)

['I', 'was', 'just', 'a', 'kid,', 'and', 'loved', 'it', 'very', 'much!', 'What', 'a', 'fantastic', 'song!']

re匹配符号进行分词

>>> print re.split(r'\W+', text)

['I', 'was', 'just', 'a', 'kid', 'and', 'loved', 'it', 'very', 'much', 'What', 'a', 'fantastic', 'song', '']

>>> print re.findall(r'\w+|\S\w*', text)

['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', '!', 'What', 'a', 'fantastic', 'song', '!']

>>> print re.findall(r"\w+(?:[-']\w+)*|'|[-.(]+|\S\w*", text)

['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', '!', 'What', 'a', 'fantastic', 'song', '!']

NLTK正则表达式分词器

>>> import re

最低0.47元/天解锁文章

weixin_39801356

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。