NLP 预处理

1. nltk内置分词器

导入模块

from nltk.tokenize import LineTkoenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize

首先生成对象,然后调用tokenize方法

LTokenize=LineTokenizer()#按行分词
out=Ltokenize.tokenize('my word sssss')
out=word_tokenize('my word sssss')

2. 词干提取

词干为没有前后缀的词的主体;
在处理一些任务如搜索问题等时,需要去除文本格式,只对词干进行处理
导入模块,生成对象

from nltk import PorterStemmer,LancasterStemmer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
porter=PorterStemmer()
out = [poter.stem(t) for t in token]
print(out)

PorterStemmer倾向于较少的去除后缀,LancasterStemmer倾向于较多的去除后缀

3. 词形还原

词元(Lemma):一个词的中心词,与词干提取不同,词元通过字典匹配得到
词形还原(lemmatization):是一个字典映射过程
使用WordNetLemmatizer函数完成

from nltk import WordNetLemmatizer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
lemmatizer=WordNetLemmatizer()
out=[lemmatizer(t) for t in token]
print(out)

和词干提取相比,词形还原错误更少,表现更优。

4. 停用词

停用词是指具有极少语义价值,但具有极高语法价值的词,如the, '.'等。

import nltk
from nltk.corpus import gutenberg
gb_words=gutenberg.words('austen-emma.txt')
word_filtered=[e for e in gb_words if len(e)>3]
stopwords=nltk.corpus.stopwords.words('english')
words=[e for e in word_filtered if e not in stopwords]
fdist=nltk.FreqDist(words)
print(fdist.most_common(10))

在进行复杂文本分析之前,必须进行停用词处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值