机器学习之决策树基本知识点

决策树是一种常用分类模型,优点是可读性强,分类速度快,学习时利用训练数据根据损失函数最小化的原则建立树模型。

建立决策树的三个步骤:特征选择、决策树的生成、决策树的修剪(预修剪、后修剪)

对于特征的选择,对于不同的算法有不同的方法,但是本质目的其实是为了降低模型的不确定性,基于其评价指标的不同,主要有ID3算法,C4.5算法和CART算法,其中ID3算法的评价指标是信息增益,C4.5算法的评价指标是信息增益率,CART算法的评价指标是基尼系数。

信息熵

信息熵是用来评估样本集合的纯度的一个参数。熵是对随机变量不确定性的度量,也可以说是对随机变量的概率分布的一个衡量。熵越大,随机变量的不确定性就越大。对同一个随机变量,当他的概率分布为均匀分布时,不确定性最大,熵也最大。对有相同概率分布的不同的随机变量,取值越多的随机变量熵越大。
在这里插入图片描述

信息增益

信息增益就是纯度提升值,用属性对原数据集进行划分后,得到的信息熵的差就是纯度的提升值。
在这里插入图片描述
缺点:信息增益准则对那些属性的取值比较多的属性有所偏好,也就是说,采用信息增益作为判定方法,会倾向于去选择属性取值比较多的属性。

信息增益率

在这里插入图片描述
在这里插入图片描述
需要注意的是,增益率准则对属性取值较少的时候会有偏好,为了解决这个问题,C4.5并不是直接选择增益率最大的属性作为划分属性,而是之前先通过一遍筛选,先把信息增益低于平均水平的属性剔除掉,之后从剩下的属性中选择信息增益率最高的,这样的话,相当于两方面都得到了兼顾。

决策树过拟合现象

预剪枝
是指在决策树生成过程中,对每个节点在分前进行估计,若当前的节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点。

后剪枝
是指从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换成叶结点能带来决策树泛化性能提升,则将该子树替换成叶结点

参数:树的高度、叶子节点的数目、最大叶子节点数、限制不纯度。

决策树的优缺点

优点:
1、计算简单、速度快;
2、可解释性强;
3、比较适合处理有缺失属性的样本。

缺点:
1、容易发生过拟合(随机森林可以很大程度上减少过拟合);
2、忽略了数据之间的相关性;

缺失值处理

1、如何在属性值缺失的情况下进行划分属性的选择?
2、给定划分属性,若样本在该属性上的值是缺失的,那么该如何对这个样本进行划分?

初始化根节点的值;让同一个样本以不同的概率划到子节点去。

决策树和逻辑回归区别

1、逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归
2、逻辑回归​模型较为简单,不容易产生过拟合。决策树容易产生过拟合,通常通过剪枝避免产生过拟合
3、逻辑回归擅长分析线性关系,而决策树对线性关系的把握较差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值