编译 | sunlei
发布 | ATYUN订阅号
我曾经的文章中,写到了XGBoost、LightGBM和Catboost的对比研究。通过分析,我们可以得出结论,catboost在速度和准确度方面都优于其他两家公司。在今天这个部分中,我们将深入研究catboost,探索catboost为高效建模和理解超参数提供的新特性。
对于新读者来说,catboost是Yandex团队在2017年开发的一款开源梯度增强算法。它是一种机器学习算法,允许用户快速处理大数据集的分类特征,这与XGBoost和LightGBM不同。Catboost可以用来解决回归、分类和排序问题。
作为数据科学家,我们可以很容易地训练模型并做出预测,但是,我们往往无法理解这些花哨的算法中发生了什么。这也是我们看到模型性能在离线评估和最终生产之间存在巨大差异的原因之一。我们应该停止将ML作为一个“黑匣子”,在提高模型精度的同时重视模型解释。这也将帮助我们识别数据偏差。在这一部分中,我们将看到catboost如何通过以下功能帮助我们分析模型并提高可视性:
功能的重要性
你为什么要知道?
-删除不必要的功能,简化模型,减少训练/预测时间
-为你的目标价值获取最具影响力的功能,并对其进行操作,以获得商业收益(例如:医疗保健提供者想要确定是什么因素在驱动每个病人患某些疾病的风险,以便他们可以直接使用目标药物解决这些风险因素)
除了选择功能重要性的类型之外,我们还应该知道我们想要使用哪些数据来寻找特性重要性——训练、测试或完整数据集。选择一个特性比选择另一个特性有优缺点&#