python编程语言符号大全_符号化_python_极客大全

本文深入探讨了Python中的标记化技术,包括行标记化、非英语标记化和单词标记化。通过nltk库,我们可以方便地对文本进行处理,例如将句子划分为单独的行,对非英语文本进行标记,以及将单词提取出来。示例代码展示了如何使用nltk.sent_tokenize、nltk.data.load和nltk.word_tokenize等函数进行操作。
摘要由CSDN通过智能技术生成

本篇文章帮大家学习符号化,包含了符号化使用方法、操作技巧、实例演示和注意事项,有一定的学习价值,大家可以用来参考。

在python中,标记化基本上是指将更大的文本体分成更小的行,单词甚至为非英语语言创建单词。各种标记化函数功能内置在nltk模块中,可以在程序中使用,如下所示。

行标记化

在下面的示例中,使用函数sent_tokenize将给定文本划分为不同的行。

import nltk

sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "

nltk_tokens = nltk.sent_tokenize(sentence_data)

print (nltk_tokens)

当运行上面的程序时,得到以下输出 -

['The First sentence is about Python.', 'The Second: about Django.', 'You can learn Python,Django and Data Ananlysis here.']

非英语标记化

在下面的示例中,将德语文本标记为。

import nltk

german_tokenizer = nltk.data.load('tokenizers/punkt/german.pickle')

german_tokens=german_tokenizer.tokenize('Wie geht es Ihnen? Gut, danke.')

print(german_tokens)

当运行上面的程序时,得到以下输出 -

['Wie geht es Ihnen?', 'Gut, danke.']

单词符号化

我们使用nltk的word_tokenize函数将单词标记。参考以下代码 -

import nltk

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"

nltk_tokens = nltk.word_tokenize(word_data)

print (nltk_tokens)

当运行上面的程序时,得到以下输出 -

['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers',

'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the',

'comforts', 'of', 'their', 'drawing', 'rooms']

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值