Datawhale202401组队吃瓜——第三次整理

本文详细介绍了机器学习中的决策树算法,包括算法流程、最优划分选择(信息熵/信息增益和基尼系数)、剪枝策略以减少过拟合、处理连续值和缺失值的方法,以及多变量决策树的扩展应用.
摘要由CSDN通过智能技术生成

机器学习(西瓜书),第4章,决策树

一、算法流程

基于递归的“分而治之”:终止条件有(1)叶结点为同一类(2)叶结点为空(3)叶结点所有属性相同
其次最核心的部分是第8行的,寻找最优划分属性

二、算法核心——如何选取最优的划分准则

基于信息熵与信息增益:若一个分划使得新节点信息熵之和得到尽可能的下降(即信息增益越大),说明分划让纯度提升了,是个非常理想的划分。
信息熵Ent(D)=-\sum_{k=1}^{\left | y \right |}p_klog_2pk,信息增益Gain(D,\alpha)=Ent(D)-\sum_{v=1}^{V}\frac{\left | D^v \right |}{\left | D \right |}Ent(D^v)
在南瓜书中也补充了信息熵的取值范围,其最小值是由不加约束的全局最小值大于0反证获得,最大值是由拉格朗日乘数法的条件极值求得。
另一种准则:基尼系数

三、剪枝

目的:减少过拟合情况
分类:预剪枝和后剪枝,优缺点整理如下

优点缺点
预剪枝(构建树时,若分枝不会提高分类正确率,则不生成叶结点)显著减少训练和计算时间本质为贪心算法,只是局部最优解,无法确保再下一层是否会让结果变好
后剪枝(在生成一个完整的树后。通过自叶结点的回溯,若合并能提高分类正确率,则合并)减少欠拟合的风险首先要生成树,再自下向上回溯,训练和计算开销大

四、连续值与缺失值

连续值:二分法,以某一个大于小于某个取值作为分类标注
缺失值:以无缺失的子样本去预测整体分布

五、多变量决策树

以多变量的线性组合替代上述简单的类别分类or连续值二分类,在阅读材料里也补充了最小二乘法的线性分类器(值得回顾第三章内容:个人认为线性判敛线的垂线便是一个很好的分类直线,示意如下图蓝线,当然垂线的具体交点,可以以投影线上最近的两点中值为准,也可以进行其他的准则)和内嵌入感知机的感知机树

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值