第1、2章分词、词干提取

最新推荐文章于 2022-09-28 19:12:10 发布

下川

最新推荐文章于 2022-09-28 19:12:10 发布

阅读量1.5k

点赞数

分类专栏： nltk cook

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oXiaChuan/article/details/48609471

版权

这篇博客介绍了自然语言处理的基础操作，包括使用NLTK库进行句子和单词划分，利用RegexpTokenizer进行特定模式的词汇提取，去除英文停用词，应用PorterStemmer和WordNetLemmatizer进行词形归并，并展示了如何替换缩写词以优化文本处理。

摘要由CSDN通过智能技术生成

把文章分为句子

para = "Hello World. It's good to see you. Thanks for buying this book."
from nltk.tokenize import sent_tokenize

sent_tokenize(para)

把句子分为单词
from nltk.tokenize import word_tokenize

word_tokenize('Hello World.')

>>> from nltk.tokenize import RegexpTokenizer >>> tokenizer = RegexpTokenizer("[\w']+") >>> tokenizer.tokenize("Can't is a contraction.") ["Can't", 'is', 'a', 'contraction']

去除停用词

from nltk.corpus import stopwords

english_stops = set(stopwords.words('english'))

words = ["Can't", 'is', 'a', 'contraction']

[word for word in words if word not in english_stops]

词形归并

>>> from nltk.stem import Po

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

下川 CSDN认证博客专家 CSDN认证企业博客

码龄12年

8: 原创

118万+: 周排名

39万+: 总排名

6807: 访问

: 等级

154: 积分

15: 粉丝

5: 获赞

4: 评论

3: 收藏

私信

关注

热门文章

分类专栏

nltk说明书 5篇
nltk cook 1篇

最新评论

第5次作业答案跟帖
xqhlsjslcy: 好嘞，已解决
第5次作业答案跟帖
下川回复 xqhlsjslcy: 那需要在CSS里面更改，为了简单，我就没有把那段代码放上来
第5次作业答案跟帖
xqhlsjslcy: 按照这个源码做了之后排序是正确的，但是没有显示黄色。。。
第5次作业答案跟帖
下川: 更新这些之后，请使用以下代码重新提交你的网页 [code=ruby] git add . git commit -a -m "commit" git push heroku master [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。