机器学习-树模型

树模型(分类或回归)

决策树

树的基本结构树的结构

示例
在这里插入图片描述
在这里插入图片描述定义
决策树在分类问题中,表示基于特征对实例空间进行划分的方法。可以视为if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布。

步骤

  • 特征选择
    决定选取哪些特征来划分特征空间。
    先引入信息论概念:信息增益
    熵、条件概率、信息增益在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    对信息增益进行特征选择
    选取信息增益最大的特征
    在这里插入图片描述
    在这里插入图片描述
    特征的信息增益算法
  • 计算数据集D的熵
    在这里插入图片描述
  • 计算特征的条件熵
    在这里插入图片描述
  • 计算特征的信息增益
    在这里插入图片描述
    !!!这样的算法特性倾向于选择特征离散量较多的特征,但实际往往是由于特征很多而把y分的很细,因而就有了信息增益比修正算法

信息增益比修正算法

  • 计算数据集D关于特征的熵
    在这里插入图片描述
  • 计算特征的信息增益比
    在这里插入图片描述
  • 决策树生成
    ID3
    基于信息增益特征选择在这里插入图片描述
    C4.5
    C4.5算法即将ID3中特征选择算法由信息增益替换为信息增益比

过拟合问题
往往树的规模越大,在模型训练中的拟合效果虽然会更好,但模型的泛化能力会下降,因此需要对决策树进行剪枝。

  • 决策树剪枝
    极小化决策树整体的损失函数或代价函数
    函数定义
    在这里插入图片描述
    在这里插入图片描述
    混淆矩阵
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述分类回归树CIRT
    假设决策树是二叉树形式,一次特征只能将数据集分为两个类别。

决策树优点

  • 不需要任何领域知识或参数假设
  • 适合高维数据
  • 简单易于理解
  • 短时间内处理大量数据,得到可行且效果较好的结果

决策树缺点

  • 对于各类别样本数量不一致的数据,信息增益偏向于那些具有更多数值的特征
  • 容易过拟合,特别是在特征多的情况下,易引入噪声特征
  • 忽略属性间的相关性
  • 不支持在线学习
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值