在文本分类中,经常使用到TfidfVectorizer()函数,这个函数把词转换为向量,TF是词频,idf是逆文本频率,idf表现一个词在所有文本中出现的频率,它出现的越多说明越不重要,idf即是一个词的重要程度体现,越高越重要。
在使用这个函数的时候,需要注意的是,它所输出的结果是一个scipy.sparse.csr.csr_matrix,我们在将结果输入到模型中的时候,需要注意模型是否支持这种格式,如果不支持,需要像以下代码一样将sparse metrix转化成numpy的格式。
同时,在一些需要将TfidfVectorizer()函数的输出结果进行整合计算的时候,转化为numpy格式是一个很明智的选择。
reviews, labels = load_data(train)
word_tfidf, char_tfidf = train_tfidf(all_text)
w = word_tfidf.transform(reviews).todense()
c = char_tfidf.transform(reviews).todense()
train_reviews = np.hstack((w,c))
print(len(labels))
print(len(reviews))
print(c.shape)
print(w.shape)
print(train_reviews.shape)
运行输出
运行耗时: 11秒894毫秒
5695
5695
(5695, 50000)
(5695, 10000)
(5695, 60000)
如果不转化成numpy格式,会出现错误。