1. TfidfVectorizer
这个函数的输入是分词后的列表,输出是tfidf的矩阵。
其实这个函数是以下CountVectorizer和TfidfTransformer的组合:
vectorizer = CountVectorizer(min_df=1e-5) # drop df < 1e-5,去低频词
X = vectorizer.fit_transform(corpus_set)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
2. TfidfVectorizer.build_tokenizer()
TfidfVectorizer中的这个函数可以返回token。
token和原始输入略有区别,如下图所示,token里没有了标点符号,以及一些单个的字。
这是 因为里边内置了一个参数:token_pattern,默认会只选择2个及以上的字母或者数字。