决策树的构造
包括三个过程:特征选择、决策树生成和决策树剪枝
特征选择问题
特征选择问题:构建决策树的过程中, 这个根节点怎么选择,也就是这个特征要怎么选择。
解决方法:
纯度
纯度换一种方式来解释就是让目标变量的分歧最小。
信息熵
信息熵表示了信息的不确定度,理解起来就是衡量一组样本的混乱程度,样本越混乱,越不容易做出决定。
公式: H = − ∑ i = 1 k p i log ( p i ) H=-\sum_{i=1}^{k} p_{i} \log \left(p_{i}\right) H=−i=1∑kp