自然语言处理--NLTK包的TreebankWordTokenizer分词

最新推荐文章于 2023-04-27 11:29:22 发布

糯米君_

最新推荐文章于 2023-04-27 11:29:22 发布

阅读量1.5k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 python 算法

本文链接：https://blog.csdn.net/fgg1234567890/article/details/111463653

版权

自然语言处理专栏收录该内容

59 篇文章 8 订阅

订阅专栏

来自 NLTK 包的 TreebankWordTokenizer 分词器，它内置了多种常见的英语分词规则。例如，它从相邻的词条中将短语结束符号（?!.;,）分开，将包含句号的小数当成单个词条。另外，它还包含一些英文缩略语的规则，例如，“don’t”会切分成[“do”, “n’t”]。

from nltk.tokenize import TreebankWordTokenizer

sentence = """Monticello wasn't designated as UNESCO World Heritage Site until 1987."""
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

糯米君_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
自然语言处理--NLTK包的TreebankWordTokenizer分词

来自 NLTK 包的 TreebankWordTokenizer 分词器，它内置了多种常见的英语分词规则。例如，它从相邻的词条中将短语结束符号（?!.;,）分开，将包含句号的小数当成单个词条。另外，它还包含一些英文缩略语的规则，例如，“don’t”会切分成[“do”, “n’t”]。from nltk.tokenize import TreebankWordTokenizersentence = """Monticello wasn't designated as UNESCO World Herit
复制链接

扫一扫

专栏目录