NLTK简介
NLTK是Python上著名的⾃然语⾔处理库。⾃带语料库,以及分词等功能。
NLTK被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。
NLTK提供丰富的模块和功能⬇️
模块 | 功能 |
---|---|
nltk.corpus | 语料库 |
nltk.tokenize | 分词 |
nltk.stem | 句子主干 |
nltk.tag | 词性标识符 |
nltk.collocation | 搭配发现 |
nltk.classify, nltk.cluster | 分类,分簇 |
nltk.chunk | 分块 |
nltk.parse | 解析 |
nltk.probability | 概率与估计 |
… | … |
NLTK简单使用
先检查一下自己的nltk
import nltk
# 查看一下nltk的简介(是否导入成功?)
print(nltk.__doc__)
# 查看一下语料库路径(是否成功下载语料库?)
print(nltk.data.find("corpora"))
瞧瞧自带的语料库
from nltk.corpus import brown # 导入Brown语料库
print(brown