TF(t)=(t出现再文档中的次数)/文档中的term总数 IDF(t)=log(文档总数/(含有t的文档总数+1)) TF-IDF=TF*IDF 注意:词干提取和词性归一化处理(NLTK实现stemming 和lemma)