NLTK 库中包含一个分词器 casual_tokenize,该分词器用于处理来自社交网络的非规范的包含表情符号的短文本。在这些社交网络中,文本的语法和拼写习惯千差万别。
from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""
print(casual_tokenize(message))
print(casual_tokenize(message, reduce_len=True, strip_handles=True))