NLP 预处理

最新推荐文章于 2024-04-11 11:29:31 发布

qq_41728130

最新推荐文章于 2024-04-11 11:29:31 发布

阅读量177

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_41728130/article/details/102790750

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. nltk内置分词器

导入模块

from nltk.tokenize import LineTkoenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize

首先生成对象，然后调用tokenize方法

LTokenize=LineTokenizer()#按行分词
out=Ltokenize.tokenize('my word sssss')

out=word_tokenize('my word sssss')

2. 词干提取

词干为没有前后缀的词的主体；
在处理一些任务如搜索问题等时，需要去除文本格式，只对词干进行处理
导入模块，生成对象

from nltk import PorterStemmer,LancasterStemmer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
porter=PorterStemmer()
out = [poter.stem(t) for t in token]
print(out)

PorterStemmer倾向于较少的去除后缀，LancasterStemmer倾向于较多的去除后缀

3. 词形还原

词元（Lemma）:一个词的中心词，与词干提取不同，词元通过字典匹配得到
词形还原（lemmatization）:是一个字典映射过程
使用WordNetLemmatizer函数完成

from nltk import WordNetLemmatizer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
lemmatizer=WordNetLemmatizer()
out=[lemmatizer(t) for t in token]
print(out)

和词干提取相比，词形还原错误更少，表现更优。

4. 停用词

停用词是指具有极少语义价值，但具有极高语法价值的词，如the, '.'等。

import nltk
from nltk.corpus import gutenberg
gb_words=gutenberg.words('austen-emma.txt')
word_filtered=[e for e in gb_words if len(e)>3]
stopwords=nltk.corpus.stopwords.words('english')
words=[e for e in word_filtered if e not in stopwords]
fdist=nltk.FreqDist(words)
print(fdist.most_common(10))