python 英语分词_自然语言处理 | NLTK英文分词尝试

最新推荐文章于 2024-04-22 02:39:54 发布

weixin_39640687

最新推荐文章于 2024-04-22 02:39:54 发布

阅读量2.1k

点赞数

文章标签： python 英语分词

NLTK是一个高效的Python构建的平台，用来处理自然语言数据，它提供了易于使用的接口，通过这些接口可以访问超过50个语料库和词汇资源（如WordNet），还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。NLTK可以在Windows、Mac OS以及Linux系统上使用。

1.安装NLTK

使用pip install nltk命令安装NLTK库，NLTK中集成了语料与模型等的包管理器，通过在python解释器中执行以下代码

import nltk

nltk.download()

便会弹出包管理界面，在管理器中可以下载语料，预训练的模型等。

9d232e4a3c28

除了一些个人数据包还可以下载整个集合（使用“all”），或者仅下载书中例子和练习中使用到的数据（使用“book”），或者仅下载没有语法和训练模型的语料库（使用“all-corpora”）。

2.简单文本分析

分词

词性标注

命名实体识别

import nltk

#先分句再分词

sents = nltk.sent_tokenize("And now for something completely different. I love you.")

word = []

for sent in sents:

word.append(nltk.word_tokenize(sent))

print(word)

#分词

text = nltk.word_tokenize("And now for something completely different.")

print(text)

#词性标注

tagged = nltk.pos_tag(text)

print (tagged[0:6])

#命名实体识别

entities = nltk.chunk.ne_chunk(tagged)

print (entities)

>>>[['And', 'now', 'for', 'something', 'completely', 'different', '.'], ['I', 'love', 'you', '.']]

>>>['And', 'now', 'for', 'something', 'completely', 'different', '.']

>>>[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', &

最低0.47元/天解锁文章

weixin_39640687

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python 英语分词_自然语言处理 | NLTK英文分词尝试

NLTK是一个高效的Python构建的平台，用来处理自然语言数据，它提供了易于使用的接口，通过这些接口可以访问超过50个语料库和词汇资源（如WordNet），还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。NLTK可以在Windows、Mac OS以及Linux系统上使用。1.安装NLTK使用pip install nltk命令安装NLTK库，NLTK中集成了语料与模型等的包管理器...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。