环境:
1.安装nltk:pip install nltk 注:windows如果提示需要安装依赖包msgpack pip install msgpack
2.nltk_data的下载
交互模式:
import nltk
nltk.download() 【windows:nltk.download_shell()】
输入:d 进入下载器
输入:all 开始下载
下载完成之后 交互模式 :from nltk import * 测试是否安装成功
nltk.tokenize模块下构造了各种分词器的类
基本上每一个分词器的类相对应的都有一个构建好的分词方法
开发者已经把这些工具导入到nltk下的__init__文件中
Ⅰ 、将文本切分为语句
1.sent_tekenize方法 将文本切分为独立的句子
from nltk.tokenize import sent_tokenize
text = "To the worl