python 召回率_如何提高Python中不平衡数据集的精度和召回率

我建立了一个监督模型来分类医学文本数据(我的输出预测疾病的正面或负面发生)。数据非常不平衡(130例阳性病例与1600例阴性病例相比,这是可以理解的,因为这种疾病很罕见)。我首先清理了数据(删除了不必要的单词,词形还原等),然后应用了POS。然后我将TfidfVectorizer和TfidfTransformer应用于此清理数据。对于分类,我尝试了SVM和随机森林,但即使用GridSearchCV调整参数后我也只获得了56%的准确率和58%的正数据回忆(我也使class_weight ='balanced')。有没有人建议如何提高这种低精度和召回?非常感谢你。

这是我当前的Pipeline(显然我在运行它时只使用其中一个分类器,但我只显示了它们的参数)。pipeline = Pipeline([

('vectors', TfidfVectorizer(ngram_range = (2,3),norm = 'l1', token_pattern = r"\w+\b\|\w+" ,min_df = 2, max_features = 1000).fit(data['final'])),

('classifier', RandomForestClassifier(n_estimators = 51, min_samples_split = 8, min_samples_leaf = 2, max_depth = 14, class_weight= 'balanced')),

('classifier', SVC(C = 1000, gamma = 1, class_weight = 'balanced', kernel='linear')),

])

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值