最大信息熵增益_决策树与随机森林(1)—模型构建(信息增益)

8d420ce633301221e90c05e274de54ed.png

首先举一个决策树的例子:

e4954ab8ce6679625e1490d8bfa0fe7c.png

这是一个抽象的决策树。

  1. 决策树与回归模型的比较:
  • 线性回归:连续性数据(例如预测明天的收益率)
  • 决策树:主要分类问题(例如预测明天股价是否上升),也可以是连续性

2. 决策树的构建

2.1 构建原则

  • 随着决策树深度(决策树的高度)的增加,节点的熵值(不确定性)迅速降低。
  • 构建的决策树的深度不要过深(数不能太高):防止过拟合问题

2.2 选择结点

2.2.1 信息熵

2.2.1.1信息熵的含义

例如由上图,为什么是先选择是否出现财务问题,而不是先选择是否行业前景较好呢?这里用到的是信息熵。熵是对平均不确定性的度量。熵越大,数据的不确定性越高,熵越低,不确定性最低。其中pi是指,每个信息所占的比例。

2.1.1.2 信息熵的计算

例1:是否出现财务问题这个信息中,出现财务问题的公司数量为100家,没有出现财务问题的公司数量为300家,那么p1=0.25,p2=0.75. H=-0.25log2(0.25)-0.75log2(0.75)=0.81

例2:是否出现财务问题这个信息中,出现财务问题的公司数量为200家,没有出现财务问题的公司数量为200家,那么p1=0.5,p2=0.5. H=-0.5log2(

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值