python 自然语言处理Natural language toolkit (NLTK)

本文介绍了自然语言处理(NLP)的基本概念和应用,如语音识别、翻译等。重点讨论了Python中用于NLP的库NLTK,讲解了其安装、数据包下载及使用方法。通过实例展示了NLTK如何进行文本分词、去除停用词以及统计词频。同时提到了NLTK在处理英语文本时的优势,并提及了与Matplotlib版本和Python版本的关系。
摘要由CSDN通过智能技术生成

自然语言处理( NLP )就是开发能够理解人类语言的应用程序和服务。

自然语言处理的应用,包括语音识别,语音翻译,理解句意,理解特定词语的同义词,以及写出语法正确,句意通畅的句子和段落。

NLTK 是一个当下流行的,用于自然语言处理的 Python 库。

  • 安装nltk库

要求python的版本必须为2.7及以上,直接使用pip安装

pip install nltk
  • 检测并下载nltk的data包

进入python控制台

import nltk    # 没有报错,说明安装nltk成功
nltk.download()    # 弹出nltk的data包下载器

注意:

    nltk_data下载,所有包大概3.2G,下载时间较长,可以根据需要下载所需要的部分即可

  • nltk_data的使用

在代码中使用nltk

import nltk
nltk.data.path.append("../nltk_data")
  • nltk实例应用

获取测试纯文本,nltk是针对英文的文本处理,获取php官方介绍,当作测试文本

既然我们用的是python,当然使用最简单的方法

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值