NLTK文本分割器是如何工作的

NLTK的tokenize模块提供了多种分割器,如单词分割器、句子分割器、段落分割器和章节分割器,统称为tokenizer。TreebankWordTokenizer是其中一种,用于进行单词分割。
摘要由CSDN通过智能技术生成
本文翻译自:  http://text-processing.com/demo/tokenize/


Tokenization 是把文本分割成tokens的方式。tokens可以是段落,句子,或者单独的单词。 


NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。

这个分割器我多啰嗦几句,如果用英文表示的话,其实tokenizer可以是很多个意思,但是这个词不能翻译,一翻译这个词就完蛋了,就会丢失它原本具有的很多意思。你说它翻译成分词器,但是它也可以是分句器,分段器,所以干脆翻译成分割器得了。或者理解成刀,刀片,切割器也行。


单词分割器--分词器

句子分割器--分句器

段落分割器--分段器

章节分割器--分节器

以上都是叫 tokenizer,但是用中文表述的时候,可以有选择的表述,因此,后文不管是什么分X器,都是tokenizer。


下面列出其中的5个。

文本首先使用 PunktSentenceTokenizer 分割成句子。
然后使用下面4中不同的单词分割器将句子分割为单词。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值