python 英语分词_自然语言处理 | NLTK英文分词尝试

NLTK是一个高效的Python构建的平台,用来处理自然语言数据,它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。NLTK可以在Windows、Mac OS以及Linux系统上使用。

1.安装NLTK

使用pip install nltk命令安装NLTK库,NLTK中集成了语料与模型等的包管理器,通过在python解释器中执行以下代码

import nltk

nltk.download()

便会弹出包管理界面,在管理器中可以下载语料,预训练的模型等。

9d232e4a3c28

除了一些个人数据包还可以下载整个集合(使用“all”),或者仅下载书中例子和练习中使用到的数据(使用“book”),或者仅下载没有语法和训练模型的语料库(使用“all-corpora”)。

2.简单文本分析

分词

词性标注

命名实体识别

import nltk

#先分句再分词

sents = nltk.sent_tokenize("And now for something completely different. I love you.")

word = []

for sent in sents:

word.append(nltk.word_tokenize(sent))

print(word)

#分词

text = nltk.word_tokenize("And now for something completely different.")

print(text)

#词性标注

tagged = nltk.pos_tag(text)

print (tagged[0:6])

#命名实体识别

entities = nltk.chunk.ne_chunk(tagged)

print (entities)

>>>[['And', 'now', 'for', 'something', 'completely', 'different', '.'], ['I', 'love', 'you', '.']]

>>>['And', 'now', 'for', 'something', 'completely', 'different', '.']

>>>[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', &

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值