nltk:python自然语言处理一

本文介绍了Python自然语言处理库nltk的安装与使用,包括nltk_data的下载、文本切分为句子以及句子切分为单词的方法,如sent_tokenize、word_tokenize和TreebankWordTokenizer等。
摘要由CSDN通过智能技术生成

环境:

1.安装nltk:pip install nltk   注:windows如果提示需要安装依赖包msgpack    pip install msgpack

2.nltk_data的下载

交互模式:

import nltk

nltk.download()   【windows:nltk.download_shell()】

输入:d     进入下载器

输入:all   开始下载

下载完成之后 交互模式 :from nltk import * 测试是否安装成功

 

 

nltk.tokenize模块下构造了各种分词器的类
基本上每一个分词器的类相对应的都有一个构建好的分词方法
开发者已经把这些工具导入到nltk下的__init__文件中

Ⅰ 、将文本切分为语句

1.sent_tekenize方法 将文本切分为独立的句子 

from nltk.tokenize import sent_tokenize

text = "To the worl
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值