catboost特征重要性_深入探索Catboost模型可解释性(上)

编译 | sunlei

发布 | ATYUN订阅号

306794de433717ffe7469f8795acd24d.png

我曾经的文章中,写到了XGBoost、LightGBM和Catboost的对比研究。通过分析,我们可以得出结论,catboost在速度和准确度方面都优于其他两家公司。在今天这个部分中,我们将深入研究catboost,探索catboost为高效建模和理解超参数提供的新特性。

对于新读者来说,catboost是Yandex团队在2017年开发的一款开源梯度增强算法。它是一种机器学习算法,允许用户快速处理大数据集的分类特征,这与XGBoost和LightGBM不同。Catboost可以用来解决回归、分类和排序问题。

作为数据科学家,我们可以很容易地训练模型并做出预测,但是,我们往往无法理解这些花哨的算法中发生了什么。这也是我们看到模型性能在离线评估和最终生产之间存在巨大差异的原因之一。我们应该停止将ML作为一个“黑匣子”,在提高模型精度的同时重视模型解释。这也将帮助我们识别数据偏差。在这一部分中,我们将看到catboost如何通过以下功能帮助我们分析模型并提高可视性:

b3f12ebe16885b57f4a07d8fde33287e.png

功能的重要性

你为什么要知道?

-删除不必要的功能,简化模型,减少训练/预测时间

-为你的目标价值获取最具影响力的功能,并对其进行操作,以获得商业收益(例如:医疗保健提供者想要确定是什么因素在驱动每个病人患某些疾病的风险,以便他们可以直接使用目标药物解决这些风险因素)

除了选择功能重要性的类型之外,我们还应该知道我们想要使用哪些数据来寻找特性重要性——训练、测试或完整数据集。选择一个特性比选择另一个特性有优缺点&#

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
作者介绍 Toby,持牌照金融公司担任模型验证专家,国内最大医药数据中心数据挖掘部门负责人!和重庆儿科医院,中科院教授,赛柏蓝保持慢病数据挖掘项目合作!管理过欧美日中印巴西等国外药典数据库,马丁代尔数据库,FDA溶解度数据库,临床试验数据库,WHO药物预警等数据库。课程概述 此课程讲述如何运用python的sklearn快速建立机器学习模型。课程结合美国威斯康辛乳腺癌细胞临床数据,实操演练,建立癌细胞预测分类器。课程讲述十大经典机器学习算法:逻辑回归,支持向量,KNN,神经网络,随机森林,xgboost,lightGBM,catboost。这些算法模型可以应用于各个领域数据。本视频系列通俗易懂,课程针对学生和科研机构,python爱好者。本视频教程系列有完整python代码,观众看后可以下载实际操作。了解癌症肿瘤基本常识,建立健康生活方式,预防癌症,减轻癌症治疗成本。课程背景 警钟长鸣!癌症离我们远吗?《我不是药神》催人泪下,笔者在此揭露真相,癌症不是小概率疾病,癌症就在身边。癌症早期发现和控制可极大延长寿命和减少治疗费用。笔者下载美国威斯康辛临床数据,运用python sklearn建立乳腺癌分类器模型,可预测正常细胞和癌细胞。我国医院重视治疗,但忽略疾病预防教育。通过我多年机器学习数据挖掘,我发现疾病可防可控,通过自身努力,我们可以提前发现疾病早期症状或扼杀疾病于摇篮。希望此课程让广大医疗科研工作者认识疾病预防教育重要性。  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值