分词 nltk.sent_tokenize(text) #按句子分割 nltk.word_tokenize(sentence) #分词 nltk的分词是句子级别的,所以对于一篇文档首先要将文章按句子进行分割,然后句子进行分词: http://www.pythontip.com/blog/post/10012/