决策树基础初学笔记

前言

引入决策树分类的例子来理解决策树(假设你已经知道了什么是分类问题)
例如现在拥有数据如下:根据数据特征(房产、婚姻、年收入)判断会不会拖欠贷款(label)。

ID房产婚姻年收入拖欠贷款
1单身125k
2已婚100k
3单身70k
4已婚120k
5离异95k
6已婚60k
7离异220k
8单身85k
9已婚75k
10单身90k

根据数据构建决策树 ,而不是常识。
在这里插入图片描述
假设这里有一条新的数据

ID房产婚姻年收入拖欠贷款
1单身70k

在这里插入图片描述
构建决策树时先选择哪个属性呢?属性的选择用什么度量呢?

答案是:用熵和基尼系数来度量
熵: p(i)表示label等于i的概率,n表示类别
E N T ( D ) = − ∑ j = 0 n − 1 P ( i ) l o g 2 p ( i ) ENT(D)=-\sum_{j=0} ^{n-1} P(i)log^{p(i)}_2 ENT(D)=j=0n1P(i)log2p(i)
基尼系数
G i n i ( D ) = 1 − ∑ i = 0 n − 1 p ( i ) 2 Gini(D)=1-\sum_{i=0}^{n-1}p(i)^2 Gini(D)=1i=0n1p(i)2
基尼系数计算示例:

  • label=0示例有5个,label=1的示例有5个。P(0)=0.5 P(1)=0.5
    Gini = 1-p(0)2 -p(1)2 =1-0.52 -0.52=0.5 ENT(D)=1
  • label=0示例有2个,label=1的 示例有8个。P(0)=0.2 P(1)=0.8
    Gini = 1-p(0)2 -p(1)2 =1-0.22 -0.82=0.32 ENT(D)=0.72

基尼系数和熵越小,纯度越高,即可选择最优属性.
根据之前的表格计算不同属性的基尼系数
在这里插入图片描述
在这里插入图片描述

决策树优缺点

优点:

  • 可解释性:叶子结点是什么啊,做的决策是什么啊;模型大量用在银行业保险业,为什么放贷款啊等问题。
  • 处理数值类特征(数值大于哪个)和类别特征(结点是不是等于那个值)

缺点:

  • 不稳定:数据有噪(解决办法:集成学习)
  • 树复杂引起过拟合(解决办法:在训练是看太复杂就停下来或者剪掉结点)
  • 树并行会 难一些,线上部署的时候性能可能没那么好

决策树优化

优化:后续可继续学习
随机森林
GBDT:提升决策树=决策树+集成学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shan_shmily

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值