sklearn.feature_extraction.text文本特征实验

最新推荐文章于 2023-02-10 15:45:14 发布

jianjian1992

最新推荐文章于 2023-02-10 15:45:14 发布

阅读量7.2k

点赞数

文章标签： f1 多标签分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jianjian1992/article/details/52155255

版权

sklearn.feature_extraction.text提供了4种文本特征提取方法：CountVectorizer HashingVectorizer TfidfTransformer TfidfVectorizer 因为TfidfVectorizer等价于CountVectorizer->TfidfTransformer，所以实质上就是两种特征，一种是HashingVector，另

摘要由CSDN通过智能技术生成

sklearn.feature_extraction.text提供了4种文本特征提取方法：

CountVectorizer
HashingVectorizer
TfidfTransformer
TfidfVectorizer
因为TfidfVectorizer等价于CountVectorizer->TfidfTransformer，所以实质上就是两种特征，一种是HashingVector，另一种则是Tfidf特征。

每一类都是由题目组成，但是每个题目长度都不长，分词筛选后也只剩下几个关键词，因此计算各个词的tf的时候结果基本都是1/题目分词数，所以我便想着能不能计算出每一类的各个词的tf，而不是对单独的每个题目计算tf。
因此我将同一类的所有题目分词都组合到一个文档，这样就可以在同一类上计算词频tf，而不是在每个题目上面单独计算。
首先根据tf值排序做词典筛选：
初始词典中词的数目为7000。

实验采用
model = OneVsRestClassifier(svm.SVC(kernel=’linear’))模型进行实验。
特征提取采用了tf-idf和tf两种，tf-idf在tf的基础上加入了逆文档词频idf。
f1-macro,f1-micro,f1-sample分别是应用于多标签分类的评价标准，评价的基本标准依然是f1值，只是计算方式有所不同。

首先在tf-idf提取的特征下进行不同词数的实验，从中可以看到
在1000维的时候f1-macro和f1-sample准确率达到最高，说明特征并不是越多越好，只要有足够多的具有区分能力的特征就够了。
500维的时候效果和1000维相差不大。
接着进行了tf-i

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
sklearn.feature_extraction.text文本特征实验

sklearn.feature_extraction.text提供了4种文本特征提取方法：CountVectorizer HashingVectorizer TfidfTransformer TfidfVectorizer 因为TfidfVectorizer等价于CountVectorizer->TfidfTransformer，所以实质上就是两种特征，一种是HashingVector，另
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。