nltk.sent_tokenize(text) #对文本按照句子进行分割
nltk.word_tokenize(sent) #对句子进行分词,当输入的是包含多个句子的文档时,返回列表,每个列表包含对应句子的分词结果。
for word in word_tokenize(document):
texts_tokenized_tmp += jieba.analyse.extract_tags(word,10)
texts_tokenized.append(texts_tokenized_tmp)
document包含很多个句子,那么word_tokenize(document)返回一个列表,表示每个句子为单位的分词结果。所以for循环时,变量word其实是很多个词。jieba.analyse.extract_tags(word, 10)是从word中根据TF-IDF顺序选取10个得分最高的,目的是过滤低词频单词。