nltk词干提取

最新推荐文章于 2025-04-14 16:44:40 发布

thystar

最新推荐文章于 2025-04-14 16:44:40 发布

阅读量1.2w

点赞数 1

分类专栏： python机器学习

本文链接：https://blog.csdn.net/thystar/article/details/45646925

版权

python机器学习专栏收录该内容

3 篇文章

订阅专栏

在自然语言处理的词干提取中，不同语言的提取规则不同，在python中，使用

nltk.stem.snowballStemmer

处理

具体如下：

from nltk import SnowballStemmer

>>> SnowballStemmer.languages
(u'danish', u'dutch', u'english', u'finnish', u'french', u'german', u'hungarian', u'italian', u'norwegian', u'porter', u'portuguese', u'romanian', u'russian', u'spanish', u'swedish')

如果处理的是英语，则可以用如下代码

>>> import nltk.stem
>>> s = nltk.stem.SnowballStemmer('english')
>>> s.stem('imaging')
u'imag'
>>>

如果处理的是意大利语，则将参数改变即可

>>> s = nltk.stem.SnowballStemmer('italian')
>>> s.stem('Commissario')
u'commissar'
>>>

此外 nltk.stem.snowball module

同样可以用于词干处理

>>> s = nltk.stem.snowball.EnglishStemmer()
>>> s.stem('imaging')
u'imag'
>>>

具体参考http://www.nltk.org/api/nltk.stem.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

thystar

关注关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

NLTK词干提取与词形还原

Mr数据杨

01-16

103

在自然语言处理中，词干提取和词形还原是两种常用的单词归一化技术。词干提取通过规则去除词缀，处理速度快但缺乏精度，适合对语义要求不高的任务。词形还原则基于词典和词性标注，能够准确地还原单词原形，适合对语法和语义要求较高的任务。在实际应用中，选择合适的技术取决于具体的应用场景。对于那些需要快速处理大量文本的任务，如文本分类和信息检索，词干提取是更好的选择；而在需要精确语义分析的场景，如机器翻译和问答系统中，词形还原则能带来更好的效果。

使用NLTK库进行词干提取的Python教程

2301_79366177的博客

09-23

299

其中一个常用的功能是词干提取，它可以将单词转换为其基本形式，从而减少词形变化带来的干扰。通过使用NLTK的词干提取器，我们可以将单词转换为它们的基本形式，从而简化文本处理和分析任务。可以看到，词干提取器能够将这些单词转换为它们的基本形式。需要注意的是，词干提取并不总是能够得到一个真实的单词，有时会得到一个类似的形式。在这段代码中，我们下载了NLTK所需的数据，这些数据包括用于句子分割、词性标注和词形还原的资源。最后，我们打印出原始单词和提取后的词干。，NLTK库还提供了其他的词干提取器，如。

参与评论您还未登录，请先登录后发表或查看评论

在Python中使用NLTK库实现对词干的提取的教程

09-22

主要介绍了在Python中使用NLTK库实现对词干的提取的教程,其中还用到了Pandas和IPython,需要的朋友可以参考下

python基础教程：在Python中使用NLTK库实现对词干的提取的教程

python爬虫程序学习教程

04-16

2601

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府这篇文章主要介绍了在Python中使用NLTK库实现对词干的提取的教程,其中还用到了Pandas和IPython,需要的朋友可以参考下什么是词干提取？在语言形态学和信息检索里，词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根，词干并不需要完全相同；相关的词映射到同一个词干一般能得到满意的结果，即...

自然语言处理中的词干提取与词形还原

最新发布

weixin_42360846的博客

04-14

386

本文探讨了自然语言处理中的词干提取与词形还原技术，这两种技术用于简化词汇处理，提高信息检索的召回率，同时可能降低精确度。文章介绍了词干提取与词形还原的区别，提供了Python实现示例，并探讨了如何在实际应用中选择使用这两种技术。

NLTK自带的词干提取器

微电子学与固体电子学-俞驰

11-22

2475

代码来自《Python自然语言处理》P116 (python2.7) appleyuchi@ubuntu:~/.virtualenvs/python2.7/bin$ python Python 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2 Type "help", "copyright", "cre

NLTK对HTML正文提取标记，进行词干提取、词形还原

婷子的博客

12-16

848

HTML文档操作 HTML文档的解析提取等操作主要使用的是NLTK工具包中的许多函数。实验流程如下：使用open函数打开一个HTML文档；使用BeautifulSoup中的get_text函数清洗提取文档的文本正文；使用nltk中的regexp_tokenize函数对清洗过后的正文提取标记；使用nltk中的stopwords对提取后的token删除英文中的停用词；使用nl...

词干 nltk_使用nltk库词干和词袋进行垃圾邮件分类的指南

weixin_26729841的博客

09-04

634

词干 nltkWhen I was 14, I remember that was the age of yahoo mails. One day I received a mail claiming that I have won a car and all I have to do is to submit the money first to move forward.当我14岁时，我记得那...

nltk使用方法总结

weixin_43758551的博客

08-28

1739

https://www.52nlp.cn/tag/nltk%E4%BB%8B%E7%BB%8D https://www.52nlp.cn/author/baiboy https://www.cnblogs.com/baiboy/p/nltk1.html https://www.cnblogs.com/chen8023miss/p/11458571.html https://zhuanlan.zhihu.com/p/98808960 https://blog.csdn.net/sunflower_sara/a

nltk.stem 词干提取（stemming）

冷月无声的博客

08-07

9381

Stemming 可以抽取词的词干或词根形式，NLTK中提供了三种最常用的词干提取器接口 '''基于Porter词干提取算法''' from nltk.stem.porter import PorterStemmer porter_stemmer = PorterStemmer() porter_stemmer.stem(‘multiply’) # u’multipli’ ...

NLP深入学习（二）：nltk 工具包介绍

日常学习与专研的记录

01-17

2437

本文主要介绍与NLP有关的 nltk 工具包的相关知识，包含分词（tokenization）、词性标注（POS tagging）、命名实体识别（NER）、句法分析（parsing）、情感分析（sentiment analysis）、文本分类（text classification）等。

移除停用词篇

qq_43893755的博客

04-19

754

停用词把数据转换成计算机能理解的过程就是预处理过程。其中，预处理的主要形式就是过滤掉无用的数据。在自然语言处理中，无用的数据就是停用词(stop words) 停用词有哪些？具体来说，在英文中的停用词就如a/an/the/in etc 命令行查看停用词列表 import nltk from nltk.corpus import stopwords print(stopwords.words("english") {‘ourselves’, ‘hers’, ‘between’, ‘your

python机器学习——NLTK及分析文本数据（自然语言处理基础）

乐亦亦乐的博客

08-15

2万+

NLTK NLTK（Natural Language Toolkit），自然语言处理工具包，在NLP（自然语言处理）领域中，最常使用的一个Python库。自带语料库，词性分类库。自带分类，分词功能。 NLTK安装安装：pip install NLTK 测试：import nltk Anaconda不用安装安装语料库： import nltk nltk.download() 执行...

自然语言处理（NLP）-NLTK入门学习（一）

三米学习笔记杂货铺

06-17

5303

自从看了吴军的《数学之美》，被其中的数学算法在IT发展历程中的应用后，发现NLP的算法其实不仅仅是语音检测单一的应用场景，所以下定决心买两本书来学习一下，这里先从NLTK开始，写的不好，欢迎大家拍砖。还是先说说自然语言处理（NLP），NLP与教孩子学语言的过程非常相似，其大多数任务都是对单词、语句的理解，形成语法和结构都正确的语句等，这些任务对于人类来说都是非常自然的事情，但是对于NLP来说，其中...

NLTK(3）处理文本、分词、词干提取与词形还原

todingdong的博客

10-24

5844

文章目录访问文本@字符串处理@编码@正则表达式分词@正则表达式分词（不好）Tokenize命令规范化文本将文本转换为小写查找词干@自定义函数（不好）NLTK词干提取器PorterLancaster 访问文本方法一： f=open(r"E:\dict\q0.txt","r") for line in f: print(line.strip()) 方法二： with open(r"C:\...

python语言转换库snowballstemmer

云中寻雾的博客

09-28

2827

安装 pip install snowballstemmer 这是一款非常瘦小的语言转换库，支持15种语言。 'danish': 丹麦语, 'dutch': 荷兰语, 'english': 英语, 'finnish': 芬兰语, 'french': 法语, 'german': 德语, 'hungarian': 匈牙利语, 'italian': 意大利语, 'norwegian': 挪威语, 'porter': 波特

使用NLTK进行英文文本的分词和统计词频

苣篛

07-01

5843

目录分词分词后词干提取和词形归一Stemming词干提取分词先将文档读入，然后全部变为小写 txt=open("English.txt","r").read() txt = txt.lower()#将英文全部变为小写中文分词需要专门的方法：英文分词就可以直接使用word_tokenize()进行分词 text="This is a text for test.And I want to learn how to use nltk." words = nltk.word_token

使用python对文件中的单词进行提取