Python自然语言处理(二)文本预处理流程
完整的文本预处理的过程如下:
原始文本语料—>分词Tokenize—>词性标注POSTag—>词干化Lemma/Stemming—>去除停用词—>处理后的文本语料
1. Tokenize
import nltk
sent="hello,Python"
tokens=nltk.word_tokenize(sent)
print tokens
['hello', ',', 'Python']
2. 中文分词
import jieba #引入jieba分词包