自然语言处理--NLTK 函数 RegexpTokenizer分词

最新推荐文章于 2024-07-11 08:30:12 发布

糯米君_

最新推荐文章于 2024-07-11 08:30:12 发布

阅读量2.8k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 python 算法

本文链接：https://blog.csdn.net/fgg1234567890/article/details/111463604

版权

自然语言处理专栏收录该内容

59 篇文章 8 订阅

订阅专栏

若要按照自己的规则进行分词,使用正则分词器：RegexpTokenizer

from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

糯米君_

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理--NLTK 函数 RegexpTokenizer分词

若要按照自己的规则进行分词,使用正则分词器：RegexpTokenizerfrom nltk.tokenize import RegexpTokenizersentence = """Thomas Jefferson began building Monticello at the age of 26."""# 按照自己的规则进行分词,使用正则分词器# \w 匹配字母、数字、下划线# 匹配任何非空白字符tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+
复制链接

扫一扫