文章目录
理论
CART全称叫Classification and Regression Tree,即分类与回归树。CART假设决策树是二叉树,内部结点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,有分支则相反。这样的决策树等价于递归地二分每个特征。
CART分类回归树可以做分类或者回归。
- 如果待预测结果是离散型数据,则CART生成分类决策树;
- 如果待预测结果是连续型数据,则CART生成回归决策树。
CART分类树使用==基尼指数(gini)==作为节点划分依据。
CART决策树的生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。
简而言之:选取Gini指数最小的分支属性作为根节点的分支属性!!!
学习视频:【【五分钟机器学习】可视化的决策过程:决策树 Decision Tree】
sklearn 库实现
-
安装库文件,用于生成二叉树的图:
pip install graphviz
-
下载graphviz安装包进行本地安装:参考学习
-
重启pycharm。
-
写代码:
决策树需要从`from sklearn import tree’导入
clf = tree.DecisionTreeClassifier(criterion='gini'