文本分类中使用TfidfVectorizer（）

最新推荐文章于 2024-07-02 15:28:18 发布

lcqin111

最新推荐文章于 2024-07-02 15:28:18 发布

阅读量6.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/lcqin111/article/details/90691350

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在文本分类中，经常使用到TfidfVectorizer()函数，这个函数把词转换为向量，TF是词频，idf是逆文本频率，idf表现一个词在所有文本中出现的频率，它出现的越多说明越不重要，idf即是一个词的重要程度体现，越高越重要。

在使用这个函数的时候，需要注意的是，它所输出的结果是一个scipy.sparse.csr.csr_matrix，我们在将结果输入到模型中的时候，需要注意模型是否支持这种格式，如果不支持，需要像以下代码一样将sparse metrix转化成numpy的格式。

同时，在一些需要将TfidfVectorizer()函数的输出结果进行整合计算的时候，转化为numpy格式是一个很明智的选择。

reviews, labels = load_data(train)
word_tfidf, char_tfidf = train_tfidf(all_text)
w = word_tfidf.transform(reviews).todense()
c = char_tfidf.transform(reviews).todense()
train_reviews = np.hstack((w,c))
print(len(labels))
print(len(reviews))
print(c.shape)
print(w.shape)
print(train_reviews.shape)

运行输出
运行耗时: 11秒894毫秒
5695
5695
(5695, 50000)
(5695, 10000)
(5695, 60000)

如果不转化成numpy格式，会出现错误。

lcqin111

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录