nltk.data.load('tokenizers/punkt/english.pickle')详解

最新推荐文章于 2024-06-24 22:52:41 发布

飞奔的帅帅

最新推荐文章于 2024-06-24 22:52:41 发布

阅读量9k

点赞数 15

分类专栏： nltk 文章标签： nltk.data.load 'tokenizers/punkt/english.pick nltk nlp

本文链接：https://blog.csdn.net/ustbbsy/article/details/80053307

版权

对于初学者，在kaggle上做电影评论情感文本分析的时候，会碰到这么一句nltk.data.load('tokenizers/punkt/english.pickle')

想看最后结果的，直接拉到页面最后。。。

从整个的函数，可以隐约感觉到，是对一段文本进行分句，分成各个句子组成的列表。

我们先看个例子：

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
data = 'Sadly, more downs than ups.The plot was pretty decent.'
for row in tokenizer.tokenize(data):
    print(row)

运行出的结果：

Sadly, more downs than ups.The plot was pretty decent.

这还是一段文本，说好的分成句子呢？

几经折磨，终于知道是为什么了。

再看一下：

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
data = 'Sadly, more downs than ups. The plot was pretty decent.'
for row in tokenizer.tokenize(data):
    print(row)