python中nltk_在python中使用NLTK标记文本

给定一个字符序列和一个定义的文档单元,令牌化就是将其切成碎片(称为令牌)的任务,也许同时丢掉某些字符(例如标点符号)。在nltk和python的上下文中,这仅仅是将每个标记放入列表的过程,因此我们可以遍历一个标记,而不是一次遍历每个字母。

例如,给定输入字符串-Hi man, how have you been?

我们应该得到输出-['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我们可以使用NLTK中的word_tokenize方法对此文本进行标记。例如,

示例from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"

tokens = word_tokenize(my_sent)

print(tokens)

输出结果

这将给出输出-['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值