树模型
文章平均质量分 86
现实、狠残酷
数据分析,供应链计划。
展开
-
XGBoost-工程实现与优缺点(中)
工程实现块结构设计我们知道,决策树的学习最耗时的一个步骤就是在每次寻找最佳分裂点是都需要对特征的值进行排序。而 XGBoost 在训练之前对根据特征对数据进行了排序,然后保存到块结构中,并在每个块结构中都采用了稀疏矩阵存储格式(Compressed Sparse Columns Format,CSC)进行存储,后面的训练过程中会重复地使用块结构,可以大大减小计算量。每一个块结构包括一个或多个已经排序好的特征;缺失特征值将不进行排序;每个特征会存储指向样本梯度统计值的索引,方便计算一阶导和二阶导数原创 2021-07-14 22:22:51 · 837 阅读 · 0 评论 -
XGBoost-原理推导(上)
XGBoost简介XGBoost(eXtreme Gradient Boosting)是华盛顿大学博士陈天奇创造的一个梯度提升(Gradient Boosting)的开源框架。至今可以算是各种数据比赛中的大杀器,被大家广泛地运用。之前的文章我已经介绍了GBDT,如果对GBDT原理不太懂的,强烈建议先把GBDT的原理搞清楚再回过头来看XGBoost,接下来我会分上中下三篇文章详细介绍XGBoost,包括目标函数,学习策略,重要超参数,系统设计,优缺点等。目标函数我们知道 XGBoost 是由 K 个基原创 2021-07-07 19:27:35 · 237 阅读 · 0 评论 -
常用决策树模型ID3、C4.5、CART算法
决策树概述决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树通常有三个步骤:特征选择决策树的生成决策树的剪枝决策树的优点和缺点优点:决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解决策树模型可以可视化,非常直观应用范围广,可用于分类和回归,而且非常容易做多类别的分类能够处理离散型和连续的原创 2021-06-25 16:13:57 · 3003 阅读 · 0 评论 -
决策树可视化保姆级教程
决策树可视化指南决策树是机器学习的一种经典的模型,因其泛化性能好,可解释性强而被广泛应用到实际商业预测中。通常在我们完成决策树模型搭建后,我们会进一步研究分析我们搭建好的模型,这时候模型的可视化就显得尤为重要。插件安装scikit-learn中决策树的可视化一般需要安装graphviz。主要包括graphviz库的安装和python的graphviz插件的安装。安装graphviz库:pip install graphviz安装graphviz插件:安装插件地址:http://www.g原创 2021-06-28 17:07:28 · 4907 阅读 · 1 评论 -
常用决策树集成模型Random Forest、Adaboost、GBDT详解
常用的集成学习策略在之前的文章我有介绍过常用的基本决策树模型ID3、C4.5、CART算法,其中提到了一个关于基本决策树模型的缺点,那就是决策树模型学习一棵最优的决策树被认为是NP-Complete问题。实际中的决策树是基于启发式的贪心算法建立的,这种算法不能保证建立全局最优的决策树,Random Forest 引入随机能缓解这个问题。那么什么是Random Forest呢?其实这正是今天首先要介绍的集成学习框架的一种,常见的集成学习框架有三种:Bagging,Boosting 和 Stacking。三原创 2021-06-29 17:00:43 · 934 阅读 · 0 评论