决策树与随机森林

熵的定义回顾

熵是定义不确定性的物理量,越不确定,熵越大,越确定,熵越小。
在这里插入图片描述

条件熵

在这里插入图片描述
H(X,Y)表示X,Y共同发生的不确定性,H(X)表示X发生的不确定性,将X发生的不确定性减去,反过来说,给定了X发生情况下,Y发生的不确定性就是H(YginvenX)
在这里插入图片描述

在这里插入图片描述

决策树

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以根据‘outlook’‘humidity’‘temperature’‘windy’这四个特征确定是否去打球为例
1、计算时间“是否出去打球的信息熵H0”,根据信息熵公式
H0=-5/14ln5/14-9/14ln9/14
2、遍历所有特征,计算条件信息熵。比如,任选一个特征,比如选outlook做为根节点,对数据进行切分,可以看到outlook有三个分类方法即‘sunny’‘overcast’‘rainy’,先根据这三个分类方法计算出条件信息熵=5/14*(-3/5ln3/5-2/5ln2/5)+4/15*(-4/4ln4/4)+5/14*(-2/5ln2/5-3/5ln3/5).再选择其他特征计算其他特征对应的条件信息熵H1。
3、计算信息增益。计算信息熵H0与各条件信息熵H1的差,记做信息增益。
在这里插入图片描述

4、信息增益大对应的特征为本次分裂子节点时选用的特征。
5、在子节点中再次重复1~4的过程。子节点中结算信息熵,也是根据分到该子节点的样本数计算。比如,第一次分类选择overcast做为特征,则sunny子节点中共有五个样本点,sunny子节点对应的信息熵为-3/5ln3/5-2/5ln2/5(五个样本点钟有3个NO,2个Yes)。之后在计算条件信息熵,再计算信息增益确定信息增益最大的特征为分类特征。
6、在达到要求的深度即停止。

决策树的评价

在这里插入图片描述
决策树的评价函数是对叶子节点的样本数加权求熵和也就是上述公式中的C(T)。这里可以对训练集进行训练,得到深度为1,2,3…的决策树,再分别计算其深度为1,2,3…时测试集的C(T),观察各深度对应的C(T)值,取C(T)值最小的深度做为最终结果。

决策树的过拟合

在这里插入图片描述

随机森林

假设在这些样本中某一个特征下树模型过拟合,通过采样的方式,得到足够多的样本,则最终会建立足够多的的决策树,可以综合考虑所有决策树分类结果给出最终分类结果,这样可以减小过拟合的影响,因为样本噪声在样本中占的比率比较小,则只会有一个或若干个决策树拟合到了样本噪声,在样本足够多的,决策树足够多的情况下,样本噪声对预测结果影响较小。

Bagging的策略

在这里插入图片描述
每次重采样可以使用树模型,也可以使用SVM或者LOGISTIC回归,但一般不用这两种回归,主要会用到树模型。这是因为树模型是弱分类器而SVM LOGISTIC回归是强分类器,弱分类器的集成一般效果会更好。

样本不均衡常用处理方法

在这里插入图片描述

随机森林的其他应用

使用RF计算样本之间的相似度

在这里插入图片描述

计算特征重要度

在这里插入图片描述

异常检测

在这里插入图片描述

使用决策树做回归

决策树使用MSE做为评价标准,则MSE取最小值时,对应的预测值Ypred为样本的均值。具体推导过程如下
在这里插入图片描述
参照决策树分类算法,采用贪心方法,遍历按照每种特征分类后,类别对应的真实值的均值做为按照该特征进行分类的预测值(均值就是MSE最小时样本的预测值)。

(参考:https://blog.csdn.net/weixin_40604987/article/details/79296427)
单一特征参考以上链接
对于有多个特征的回归问题,可以考虑采用GBDT的方式,这一部分,在提升中继续讨论。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值