决策树和随机森林

信息熵:衡量一个随机变量取值不确定性的指标,信息熵越大则不确定性越大,信息熵越小则不确定性越小

条件熵:已知随机变量X的情况下随机变量Y的不确定性

信息增益:给定X能够使随机变量Y的确定性增加的程度(信息熵-条件熵)

构建过程:

  1. 计算当前节点的信息熵及各个特征的条件熵
  2. 计算各个特征的信息增益
  3. 确定当前节点的分支特征
  • 何时停止分支:某个节点的信息熵小于某个阈值时,停止对该节点的分支操作,将该节点作为叶子节点;叶子节点的样本集中,占比最大的一类为该叶子结点的类别
  • CART作为分类树时的特征选择指标是基尼系数,作为回归树时的特征选择指标是划分后子节点的方差

剪枝:deal with overfitting (决策树的分支过多)

 

决策树的划分选择

1.信息增益:ID3 (Iterative Dichotomiser)

信息熵用以度量样本集合纯度;信息熵的值越小,此样本空间的纯度越高

信息增益:使用属性a对样本集合进行划分,即产生分支结点,样本集合的信息熵 - 分支结点的信息熵的加权和(由各分支结点样本数计算权重);信息增益越大,意味着用该属性来进行划分所获得的“纯度提升”越大

2.增益率: C4.5

增益率:信息增益 / 该属性的intrinsic value

信息增益准则对可取值数目较多的属性有偏好,而增益率准则对可取值数目少的属性有所偏好;因此C4.5并非直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的

3.基尼系数:CART

Gini impurity:从样本集合中随机抽取两个样本,其类别标记不一致的概率;基尼值越小,样本集的纯度越高;因此优先选择可以使划分后基尼值最小的属性作为最优划分属性

假设有K个类别,第k个类别的概率为p_{k},则基尼系数表达式为:Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}

4.方差法:回归树

 

决策树的剪枝处理 

1.预剪枝:

决策树生成过程中,每个结点划分前进行估计

2.后剪枝:

先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察

3.泛化能力评估:

留出法:预留一部分数据用作“验证集“

accuracy

 

sklearn分类树参数

criterion:默认gini,即Gini impurity;也可以选择entropy,即information gain

max_depth:树的最大深度;默认none,即分裂到全部的pure leaves或全部的leaves的样本数包含少于min_samples_split;深度过小欠拟合,过大过拟合(一般在10以内)

min_samples_split:分裂一个内部结点要求的最小样本数;默认2;样本数过大欠拟合,过小过拟合

min_samples_leaf:成为一个叶子结点要求的最小样本数;默认1;样本数过大欠拟合,过小过拟合

max_features: 分裂时考虑的最大特征数;默认none,即对全部特征进行切分

max_leaf_nodes:总的叶子结点数量;默认none,即unlimted number of leaf nodes

 

Reference

决策树

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值