算法面试必备-----决策树

算法面试必备-----决策树

建立决策树基本流程

在这里插入图片描述
在这里插入图片描述

划分选择的准则(不同的启发函数)

准则一:最大信息增益(ID3算法)

信息熵

在这里插入图片描述

信息增益

在这里插入图片描述

ID3算法公式推导(使用信息增益)
公式

在这里插入图片描述
在这里插入图片描述

算法流程推导

从根节点信息熵开始
分别计算每个特征的信息增益
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
选取最大的信息增益
在这里插入图片描述
进一步划分,选一个新的信息划分起点
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
再次选取最大信息增益
在这里插入图片描述进一步划分,选一个新的信息划分起点
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
再次选取最大信息增益
在这里插入图片描述
其他的特征也一样
在这里插入图片描述

ID3算法的不足

在这里插入图片描述

为什么信息增益会偏向于取值多的特征

在这里插入图片描述
在这里插入图片描述

准则二:最大信息增益率(C4.5算法)

应对 ID3算法利用信息增益划分,造成划分倾向于划分属性多的特征

信息增益率

在这里插入图片描述

特点及使用

对可取数目较少的属性有所偏好

使用方法:
在这里插入图片描述

C4.5 算法公式推导(使用信息增益率)
公式

在这里插入图片描述

C4.5算法的不足

在这里插入图片描述

准则三:最大基尼指数(CART算法)

基尼指数

在这里插入图片描述

CART算法公式推导

在这里插入图片描述
在这里插入图片描述

分类树:基尼指数最小原则
样本集合D的Gini指数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

回归树:平方误差最小准则

剪枝处理

预剪枝

容易造成欠拟合
在这里插入图片描述

后剪枝

过程复杂,但是效果好!
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
此时共 5 个内部结点可供考虑,其中
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值