决策树的本质:本质是从训练数据中,总结出一套分类规则,也可以理解为训练处一套条件概率模型。本质上的思路,是和逻辑回归不一样的。
决策树建立的过程是:
1、特征选择
2、决策树的生成
3、决策树的剪纸
在特征选择上,核心思想就是,选择一个最好的维度,确定最好的阈值。两个最好要如何确定,是个重要问题。
如何选择呢?在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益率最高的特征(防止发生过拟合)。
什么是信息增益?就是经过某特征划分后的信息熵-未划分前的信息熵。信息增益越高,有可能发生过拟合。
什么是信息增益率?
具体代码看链接:
https://mp.weixin.qq.com/s?__biz=MzI4MjkzNTUxMw==&mid=2247484204&idx=1&sn=372d3ee90802d15347445f91056fe6bc&chksm=eb932a9adce4a38c9750a2cf6ca3382056b66099476223da02016e964ef711b97c4798ba9e58&scene=21#wechat_redirect
决策树的生成:C3.0和C4.5算法
决策树的剪枝