自然语言处理--NLTK 库casual_tokenize对非规范文本（表情符号等）分词

最新推荐文章于 2023-06-17 21:13:58 发布

糯米君_

最新推荐文章于 2023-06-17 21:13:58 发布

阅读量562

点赞数

分类专栏：自然语言处理文章标签： python 自然语言处理算法

本文链接：https://blog.csdn.net/fgg1234567890/article/details/111463925

版权

自然语言处理专栏收录该内容

59 篇文章 8 订阅

订阅专栏

NLTK 库中包含一个分词器 casual_tokenize，该分词器用于处理来自社交网络的非规范的包含表情符号的短文本。在这些社交网络中，文本的语法和拼写习惯千差万别。

from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""
print(casual_tokenize(message))

print(casual_tokenize(message, reduce_len=True, strip_handles=True))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

糯米君_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理--NLTK 库casual_tokenize对非规范文本（表情符号等）分词

NLTK 库中包含一个分词器 casual_tokenize，该分词器用于处理来自社交网络的非规范的包含表情符号的短文本。在这些社交网络中，文本的语法和拼写习惯千差万别。from nltk.tokenize.casual import casual_tokenizemessage = """RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""print(casual_tokenize(mes
复制链接

扫一扫