【自然语言处理】 | NLTK初识

NLTK是自然语言处理的重要工具包,需要按需安装其组件。分词使用word_tokenize,过滤停用词通过stopwords模块,词性标注借助pos_tag,还可进行分块和命名实体识别。通过nltk.download()安装所需包,如进行词性标注前需先安装相应工具。
摘要由CSDN通过智能技术生成

NLTK是自然语言处理中常用的工具包

导入:

import nltk

nltk中的工具/模块/包不是事先安装好的,需要用到哪个就安装那个,安装方法:

nltk.download()

就打开了安装界面,在all packages中选择需要的包安装即可。

分词:

(下面以英文文本处理为例)

from nltk.tokenize import word_tokenize
from nltk.text import Text

input_str="Today's weather is good,very windy and sunny,we have no classes in the afternoon,we have to play basketball tomorrow"

# 需要先在nltk download安装alpino包
# 分词
tokens=word_tokenize(input_str)

将子串变为小写:

tokens=[word.lower() for word in tokens]
tokens[:5] # 输出前5个

创建text对象:

t=Text(tokens)

t.count('good') # 统计某个词出现的次数
t.index('good') # 索引
t.plot(8)
help(Text)

过滤停用词:

加载停用词典:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值