NLTK文本分割器是如何工作的

最新推荐文章于 2024-07-16 09:35:47 发布

糊糊

最新推荐文章于 2024-07-16 09:35:47 发布

阅读量9.1k

点赞数 2

分类专栏： Python 文章标签： python nltk 分词器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huyoo/article/details/12193109

版权

NLTK的tokenize模块提供了多种分割器，如单词分割器、句子分割器、段落分割器和章节分割器，统称为tokenizer。TreebankWordTokenizer是其中一种，用于进行单词分割。

摘要由CSDN通过智能技术生成

本文翻译自： http://text-processing.com/demo/tokenize/

Tokenization 是把文本分割成tokens的方式。tokens可以是段落，句子，或者单独的单词。

NLTK 的tokenize 模块提供了一系列的分割器（tokenizers）。

这个分割器我多啰嗦几句，如果用英文表示的话，其实tokenizer可以是很多个意思，但是这个词不能翻译，一翻译这个词就完蛋了，就会丢失它原本具有的很多意思。你说它翻译成分词器，但是它也可以是分句器，分段器，所以干脆翻译成分割器得了。或者理解成刀，刀片，切割器也行。

单词分割器--分词器

句子分割器--分句器

段落分割器--分段器

章节分割器--分节器

以上都是叫 tokenizer，但是用中文表述的时候，可以有选择的表述，因此，后文不管是什么分X器，都是tokenizer。

下面列出其中的5个。

文本首先使用 PunktSentenceTokenizer 分割成句子。
然后使用下面4中不同的单词分割器将句子分割为单词。

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NLTK文本分割器是如何工作的

本文翻译自： http://text-processing.com/demo/tokenize/Tokenization 是把文本分割成tokens的方式。tokens可以是段落，句子，或者单独的单词。 NLTK 的tokenize 模块提供了一系列的分割器（tokenizers）。这个分割器我多啰嗦几句，如果用英文表示的话，其实tokenizer可以是很多个意思，但是这个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。