python结巴分词 能分英文吗_NLTK(一):英文分词分句

本文介绍了如何使用NLTK进行英文分词和分句。首先讲解了NLTK的安装过程,包括下载资源到指定目录。接着演示了使用`word_tokenize()`进行分词,以及去除停用词的操作。最后提到了`sent_tokenize()`用于分句,并指出NLTK不支持中文分词和分句。
摘要由CSDN通过智能技术生成

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

一、NLTK 的安装

如果是python 2.x 的环境,安装命令如下:

sudo pip install nltk

如果是python 3.x 的环境,安装命令如下:

sudo pip3 install nltk

成功地执行了上述命令后,NLTK 的安装还没有彻底地完成,还需要在 python 中执行如下的代码:

import nltk

nltk.download()

代码执行后,会弹出如下的界面:

NLTKInstall.png

点击 “all” 这一行,然后点击 “Download” 按钮进行下载。“Download Directory” 一开始可以先随便设置,但文件夹的名字必须是 nltk_data,下载完成后可以先执行一段分词的代码(随后将会提到这段代码),代码会报错,错误提示说找不到相应的资源文件,并在这段错误提示中告诉我们应该把刚才下载下来的资源放到哪里。你可能会疑惑:为什么不在下载之前将 “Download Directory” 设置正确呢?这是因为我们一开始也不知道正确的 “Download Directory” 是什么,所以先随便设置了一个,然后通过错误提示再将下载好的资源放到正确的路径下面。

资源下载过程中可能会多次出现下载异常的情况,每次遇到这种情况后,关掉正在执行的代码,然后重新执行代码进行下载即可。

二、分词

1、分词方式

分词使

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值