python 英语分词_基于Python NLTK库进行英文文本预处理

本文介绍了Python NLTK库在英文文本预处理中的应用,包括正则表达式分词、最大匹配算法、停用词去除、词干抽取、词形还原以及文本向量表示和特征选择等步骤。
摘要由CSDN通过智能技术生成

文本预处理是要文本处理成计算机能识别的格式,是文本分类、文本可视化、文本分析等研究的重要步骤。具体流程包括文本分词、去除停用词、词干抽取(词形还原)、文本向量表征、特征选择等步骤,以消除脏数据对挖掘分析结果的影响。

本文仅针对英文文本,中文文本暂时还没有研究过。介绍的全部都是基于Python2.7,利用NLTK库进行文本分类的过程。

文本分词

文本分词即将文本拆解成词语单元,英文文本以英文单词空格连接成句,分词过程较为简单。以下介绍几种方法。

正则表达式分词

以空格进行分词

>>> import re

>>> text = 'I was just a kid, and loved it very much! What a fantastic song!'

>>> print re.split(r' ',text)

['I', 'was', 'just', 'a', 'kid,', 'and', 'loved', 'it', 'very', 'much!', 'What', 'a', 'fantastic', 'song!']

re匹配符号进行分词

>>> print re.split(r'\W+', text)

['I', 'was', 'just', 'a', 'kid', 'and', 'loved', 'it', 'very', 'much', 'What', 'a', 'fantastic', 'song', '']

>>> print re.findall(r'\w+|\S\w*', text)

['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', '!', 'What', 'a', 'fantastic', 'song', '!']

>>> print re.findall(r"\w+(?:[-']\w+)*|'|[-.(]+|\S\w*", text)

['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', '!', 'What', 'a', 'fantastic', 'song', '!']

NLTK正则表达式分词器

>>> import re

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值