NLP Word Tokenization: Python NLTK V.S. 切片split(),出现bug求助
问题描述:
在对英文tweets文本进行单词tokenization处理时,发现自己切片与nltk.word_tokenize结果不一致(英文文本已做预处理):
自己切片:
# 文本放置于pd.DataFrame中,每个用户名对应his/her tweet.
wordList = [text.strip() for text in texts]
all_word = []
for line in wordList:
word = line.split(" ")
all_word.exte
原创
2021-03-24 12:03:02 ·
413 阅读 ·
1 评论