CountVectorizer()
输入:文档 corpus
输出:文档中各个单词的词频TF(即每个单词在文档中出现的次数)
TfidfTransformer()
输入:词频TF
输出:词频逆反文档频率TF-IDF(即词频TF与逆反文档频率IDF的乘积,IDF的标准计算公式为 :idf=log[n/(1+df)],其中n为文档总数,df为含有所计算单词的文档数量,df越小,idf值越大,也就是说出现频率越小的单词意义越大)
因此,利用以上两个函数,要计算某个文档的TF-IDF,需要两步完成:
1.计算词频TF,通过函数CountVectorizer()来完成,以该文档为输入,并得到词频 tf 输出;
2.计算词频逆反文档频率TF-IDF,通过函数TfidfTransformer()来实现,以第一步的词频 tf 输出为输入,并得到 tf-idf 格式的输出。
具体如下所示:
首先设置文档 corpus:
import numpy as np
corpus = np.