python 召回率_如何提高Python中不平衡数据集的精度和召回率

最新推荐文章于 2023-01-19 21:12:13 发布

weixin_39986435

最新推荐文章于 2023-01-19 21:12:13 发布

阅读量443

点赞数

文章标签： python 召回率

我建立了一个监督模型来分类医学文本数据（我的输出预测疾病的正面或负面发生）。数据非常不平衡（130例阳性病例与1600例阴性病例相比，这是可以理解的，因为这种疾病很罕见）。我首先清理了数据（删除了不必要的单词，词形还原等），然后应用了POS。然后我将TfidfVectorizer和TfidfTransformer应用于此清理数据。对于分类，我尝试了SVM和随机森林，但即使用GridSearchCV调整参数后我也只获得了56％的准确率和58％的正数据回忆（我也使class_weight ='balanced'）。有没有人建议如何提高这种低精度和召回？非常感谢你。

这是我当前的Pipeline（显然我在运行它时只使用其中一个分类器，但我只显示了它们的参数）。pipeline = Pipeline([

('vectors', TfidfVectorizer(ngram_range = (2,3),norm = 'l1', token_pattern = r"\w+\b\|\w+" ,min_df = 2, max_features = 1000).fit(data['final'])),

('classifier', RandomForestClassifier(n_estimators = 51, min_samples_split = 8, min_samples_leaf = 2, max_depth = 14, class_weight= 'balanced')),

('classifier', SVC(C = 1000, gamma = 1, class_weight = 'balanced', kernel='linear')),

])

weixin_39986435

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 召回率_如何提高Python中不平衡数据集的精度和召回率

我建立了一个监督模型来分类医学文本数据（我的输出预测疾病的正面或负面发生）。数据非常不平衡（130例阳性病例与1600例阴性病例相比，这是可以理解的，因为这种疾病很罕见）。我首先清理了数据（删除了不必要的单词，词形还原等），然后应用了POS。然后我将TfidfVectorizer和TfidfTransformer应用于此清理数据。对于分类，我尝试了SVM和随机森林，但即使用GridSearchCV...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。