NLTK包的常用总结

最新推荐文章于 2024-06-04 19:17:40 发布

AI算法工程师YC

最新推荐文章于 2024-06-04 19:17:40 发布

阅读量1.6k

点赞数 3

分类专栏：自然语言处理NLP 深度学习文章标签： NLTK NLP

本文链接：https://blog.csdn.net/qq_36134437/article/details/103464888

版权

NLTK

NLTK的全称是natural language toolkit，是一套基于python的自然语言处理工具集。
NLTK是Python很强大的第三方库，可以很方便的完成很多自然语言处理（NLP）的任务，包括分词、词性标注、命名实体识别（NER）及句法分析。

NLTK的安装

nltk的安装十分便捷，只需要pip就可以。

pip install nltk

在nltk中集成了语料与模型等的包管理器，通过在python解释器中执行

import nltk
nltk.download()

from nltk.corpus import brown
brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

一、NLTK进行分词

nltk.sent_tokenize(text) #对文本按照句子进行分割
nltk.word_tokenize(sent) #对句子进行分词

在这里插入图片描述
假设我们有如下的示例文本：

Hello Adam, how are you? I hope everything is going well.  Today is a good day, see you dude.

为了将这个文本标记化为句子，我们可以使用句子标记器：

from nltk.tokenize import sent_tokenize 
mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 
print(sent_tokenize(mytext))

['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

你可能会说，这是一件容易的事情。我不需要使用 NLTK 标记器，并且我可以使用正则表达式来分割句子，因为每个句子前后都有标点符号或者空格。

那么，看看下面的文字：

Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

呃！Mr. 是一个词,虽然带有一个符号。让我们来试试使用 NLTK 进行分词：

from nltk.tokenize import sent_tokenize 
mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 
print(sent_tokenize(mytext))

['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

Great！结果棒极了。然后我们尝试使用词语标记器来看看它是如何工作的：

from nltk.tokenize import word_tokenize
mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(word_tokenize(mytext))

['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well&#

最低0.47元/天解锁文章

AI算法工程师YC

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
NLTK包的常用总结

NLTKNLTK的全称是natural language toolkit，是一套基于python的自然语言处理工具集。NLTK是Python很强大的第三方库，可以很方便的完成很多自然语言处理（NLP）的任务，包括分词、词性标注、命名实体识别（NER）及句法分析。NLTK的安装nltk的安装十分便捷，只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包...
复制链接

扫一扫