nltk

最新推荐文章于 2024-07-08 16:14:38 发布

冥更

最新推荐文章于 2024-07-08 16:14:38 发布

阅读量759

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_24852439/article/details/84988607

版权

Python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

安装语料库

import nltk
nltk.download()

在这里插入图片描述

分词

英文分词：nltk.word_tokenize() # 按照单词进行分词
中文分词：jieba.cut()

词性处理

stemming词干提取: 保留最长词根

nltk库中有多种函数实现：

from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
porter_stemmer.stem(‘maximum’)
# output: u’maximum’

from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer = LancasterStemmer()
lancaster_stemmer.stem(‘maximum’)
#output: ‘maxim’

from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer(“english”)
snowball_stemmer.stem(‘maximum’)
u’maximum’

lemmatization词形归一：将词的各种变形都归为一个形式（wordnet）

>>> from nltk.stem import WordNetLemmatizer
>>> wordnet_lemmatizer = WordNetLemmatizer()
>>> wordnet_lemmatizer.lemmatize(‘dogs’)
u’dog’
>>> wordnet_lemmatizer.lemmatize(‘churches’)
u’church’
>>> wordnet_lemmatizer.lemmatize(‘aardwolves’)
u’aardwolf’
>>> wordnet_lemmatizer.lemmatize(‘abaci’)
u’abacus’
>>> wordnet_lemmatizer.lemmatize(‘hardrock’)
‘hardrock’

去除stopwords

from nltk.corpus import stopwords
# 先token⼀把，得到⼀个word_list
# ...
# 然后filter⼀把
filtered_words =
[word for word in word_list if word not in stopwords.words('english')]

冥更

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
nltk

安装语料库import nltknltk.download()分词英文分词：nltk.word_tokenize() # 按照单词进行分词中文分词：jieba.cut()词性处理stemming词干提取: 保留最长词根nltk库中有多种函数实现：from nltk.stem.porter import PorterStemmerporter_stemmer = P...
复制链接

扫一扫

专栏目录