scikit-learn中,有两种方法进行TF-IDF的预处理。
第一种方法
是在用CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理。
CountVectorizer+TfidfTransformer的组合,代码如下:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
corpus=["I come to China to travel",
"This is a car polupar in Chin