python自然语言处理（一）NLTK初步使用

最新推荐文章于 2025-08-24 15:53:11 发布

原创

最新推荐文章于 2025-08-24 15:53:11 发布 · 1w 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#NLP #nltk #自然语言处理 #python #词性标注

本文介绍了Python的NLTK库在自然语言处理中的应用，包括分词、词性标注、命名实体识别和句法分析。通过实例展示了nltk.sent_tokenize、nltk.word_tokenize、nltk.pos_tag、nltk.ne_chunk等函数的使用，并提及了词干提取和最大匹配算法在分词中的作用。

NLTK是Python很强大的第三方库，可以很方便的完成很多自然语言处理（NLP）的任务，包括分词、词性标注、命名实体识别（NER）及句法分析。

一 nltk安装教程

首先，保证已经安装成功python。然后终端输入命令:pip install nltk；安装完成后，输入import nltk了，然后输入nltk.download()，这样就可以打开一个NLTK Downloader（NLTK下载器）。（具体安装过程：http://www.pythontip.com/blog/post/10011/）

成功安装后，测试。输入下边的语句就可以：

     >>> from nltk.corpus import brown
     >>> brown.words()
     ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

二 NLTK进行分词

使用的函数：

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

三 NLTK进行词性标注

用到的函数：

nltk.pos_tag(tokens)#tokens是句子分词后的结果，同样是句子级的标注

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风之清扬

关注关注

4
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

22、Python自然语言处理基础：NLTK入门指南

hp777的博客

08-23

本博客介绍了使用Python进行自然语言处理（NLP）的基础工具NLTK（Natural Language Toolkit），包括其功能、安装方法、基本的文本处理技术（如分词、词性标注和文本分类），以及实际应用案例，例如情感分析和信息提取。博客还展示了如何使用NLTK进行文本分析，包括词法分散图和不同分词统计，并提供了进阶学习建议，如深度学习在NLP中的应用和多语言处理。

基于python3.6，ltp3.4.0和nltk的ltp词性标注，命名实体识别和句法依存树

ArrogantT的博客

07-11

1236

ltp词性标注： from pyltp import * sent = "在|包含|问题|的|所有|解|的|解空间树|中|，|按照|深度优先|搜索|的|策略|，|从|根节点|出发|深度|探索|解空间树|。" words = sent.split("|") # print(words) postagger = Postagger()# 实例化词性标注类 postagger.load("E:\\ltp_data_v3.4.0\\pos.model") postags = postagger.postag(w

1 条评论您还未登录，请先登录后发表或查看评论

python命名实体识别工具_斯坦福大学使用NLTK命名实体识别器（NER）功能

weixin_32564229的博客

01-14

768

Is this possible: to get (similar to) Stanford Named Entity Recognizer functionality using just NLTK?Is there any example?In particular, I am interested in extraction LOCATION part of text. For exampl...

python从文本中提取人名_Python–从文本中提取标签

weixin_39667041的博客

12-05

1755

标签是一个关键字或短语，前面有一个哈希符号(#)，写在文章或评论中以突出显示它并便于搜索。例如：#like，#gfg，#selfie我们提供了一个包含标签的字符串，我们必须将这些标签提取到列表中并打印标签是一个关键字或短语，前面有一个哈希符号(#)，写在文章或评论中以突出显示它并便于搜索。例如：#like，#gfg，#selfie我们提供了一个包含标签的字符串，我们必须将这些标签提取到列表中并打印...

【Python NTLK自然语言处理库】

热门推荐

python函数基础教程

04-16

1万+

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府本文实例讲述了Python自然语言处理 NLTK 库用法。分享给大家供大家参考，具体如下：在这篇文章中，我们将基于 Python 讨论自然语言处理（NLP）。本教程将会使用 Python NLTK 库。NLTK 是一个当下流行的，用于自然语言处理的 Python 库。那么 NLP 到底是什么？学习 NLP 能带来什么好处？ ...

python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取）

weixin_39630762的博客

12-02

2196

Python NLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。...

基于Python的自然语言处理 on nltk、keras.zip

08-23

在本项目中，我们看到了一个典型的使用Python、nltk和Keras进行自然语言处理的案例。通过这些工具的结合使用，可以构建出能够理解、解释和生成自然语言的智能系统。例如，在文本分类任务中，nltk可以用来进行初步的...

Python 自然语言处理：使用 NLTK 和 SpaCy 进行文本分析

数字魔方操控师的博客

04-28

826

自然语言处理（NLP）是人工智能和数据科学领域的重要分支，致力于让计算机理解、解释和生成人类语言1。它涉及处理人类语言和语音的各种交互，旨在实现人机自然交互2。NLP 技术被广泛应用于机器翻译、情感分析、自动摘要、文本分类等领域2。Python 作为一种流行的编程语言，拥有丰富的自然语言处理库和工具，如 NLTK、SpaCy、TextBlob 等，使得其在 NLP 领域得到广泛应用2。其中，NLTK 和 SpaCy 是两个非常常用的库。

python自然语言处理 分词_Python编程使用NLTK进行自然语言处理详解

weixin_39736913的博客

11-29

561

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言工具箱（NLTK，NaturalLanguageToolkit）是一个基于Python语言的类库，它也是当前最为流行的自然语言编程与开发工具。在进行自然语言处理研究和应用时，恰当利用NLTK中提供的函数可以大幅度地提高效率。本文就将通过一些实例来向读者介绍NLTK的使用。NLTKNaturalLanguageToolkit，自然语...

NLTK 实现决策树分类器DecisionTreeClassifier

weixin_42272768的博客

05-09

440

NLTK也提供了决策树分类器（DecisionTreeClassifier）。不过它的用法与sklearn中的不同，而且提供的例子是文本分类的例子，收敛很慢。本文根据sklearn中的鸢尾花例子修改。因为NLTK的决策树分类器与sklearn的输入数据格式不同，需要修改。鸢尾花是有4个参数的，因此需要用iris_features将4个参数组合为一个参数： def iris_features(iris,result): features = {} for item in iris:

NLTK中使用Stanford parser 构建中文语法树

baiyi_canggou的博客

03-01

1万+

在python中打印句法树 & 获得最短依存路径(SDP)

小张的博客

05-25

3637

使用NLTK + stanford corenlp打印句法树最近需要利用依存句法树做分析，但是很多教程利用nltk工具都无法使用，有的版本已经过时了，在这里记录一下目前可行的使用nltk打印句法树的方法。前期下载准备首先需要从这里下载Stanford corenlp的包 (如stanford-corenlp-full-2018-10-05) 下载解压后，在终端中cd到文件夹所在位置，运行一下命令启动server java -mx4g -cp "*" edu.stanford.nlp.pipeline.

利用递归层次遍历句法结构树（Stanfordcorenlp及nltk）

学习笔记

10-20

1088

在自然语言处理中，处理句法结构树是比较常见的处理问题，如何对句法结构树进行遍历，以及如何抽取出其中的层次关系，是值得去深究的。本文将从Stanfordcorenlp的句法结构树和nltk中的Tree的数据结构入手，进行对句法结构树的层次遍历，抽取出句子中所包含的句法的层次结构。首先需要安装Stanfordcorenlp(请自行CSDN)，然后安装nltk(pip一下就可以用其中的Tree模块了) 上代码 from stanfordcorenlp import StanfordCoreNLP from n

Python 如何截取截取字符串(字符串切片)

hdxx2022的博客

12-07

712

这篇文章主要介绍了Python 如何截取字符函数，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教在工作中我们经常会遇到某种情况需要截取字符串中某个特定标签之间的内容（爬虫可能用到的较多），适用于很多情况例如字符串形式的xml报文、json格式的字符串以及其它类型的字符串。因为我总结了有关字符串截取的两个函数来记录一下，以供参考。从本质上讲，字符串是由多个字符构成的，字符之间是有顺序的，这个顺序号就称为索引（index）。Python 允许通过索引来操作字符串中的单个或者多个字

python列表嵌套截取_从Python中的嵌套列表中提取字符串

weixin_39671631的博客

12-07

306

I'm trying to use the nltk library in python, and more specifically the wordnet corpus, to extract all the words in a broad semantic category like 'animal'. I've managed to write a function that goes ...

python正则表达式提取字符串的字母_Python正则表达式提取一部分字符串

weixin_39942451的博客

12-30

1914

1要提取大量烧成的一部分。有一个目标词和之前和之后单词的数量上限。因此所提取的子必须包含单词之前和之后它的上界目标字一起。在之前和之后的部分可以包含少言，如果目标字更接近文本的开头或结尾。进行了串"Lorem存有胡萝卜，增强大学生开发者，但他们occaecat时间和活力，如劳动力和肥胖。多年来来，谁nostrud锻炼，学区工作，除非他们aliquip优势来自它。作业如果cupidatat消费者找到...

【转】Python实现使用NLTK的快速自动关键字提取算法

dreamzuora的博客

03-16

3442

Using pip pip install rake-nltk Directly from the repository git clone https://github.com/csurfer/rake-nltk.git python rake-nltk/setup.py install Quick start from rake_nltk import Rake # Uses...

Python自然语言处理入门：NLTK与文本分析工具详解

of-NLP-in-Python:Python中自然语言处理编程的非常简要介绍”，虽然标题中提到了“word分词器java源码”，但实际上该资源的核心内容并非关于Java实现的分词器，而是以Python语言为基础，介绍自然语言处理（NLP）的...