决策树算法与具体实例

本文介绍了决策树算法的基本原理,包括ID3、C4.5和CART三种算法,并通过实例展示了如何使用决策树进行数据划分。同时,文章探讨了决策树的剪枝优化方法,以提高模型的泛化能力,并分析了不同剪枝阀值对模型性能的影响。
摘要由CSDN通过智能技术生成

任务简介

如图所示,数据集的X是一系列的属性值,Y是1或者-1,用决策树算法训练这样的分类模型,对于测试集这个分类模型能在Accuracy(准确率)这个指标上能尽可能的高
数据集


算法原理

通过选择属性对数据进行划分,使得划分之后的数据的不确定性得到下降,其中的“不确定性”以信息增益或基尼指数,或是有所惩罚的信息增益比来衡量。 经过多层的划分,使得数据的不确定性降到最低,从而使得其在训练集上的正确率达到最高,这就是最原始的决策树。

-----------------------------------------------例子------------------------------------------------
假设有这么一个人群,其年龄及患病情况如下:
这里写图片描述
单纯看患病情况的话其不确定性很大,通俗的讲就是随便从中选出一个人而不告诉你任何其他信息,要猜其是否患病,猜中的可能性很小(P = 1/2)。
现在如果使用年龄这个属性,将其划分为两类,见下图

可以看到,划分完之后不确定性下降了,通俗的讲就是随便从中选出一个人然后告诉你他的年龄,要猜其是否患病,猜中的可能性和之前相比提高了(P = 3/4)。 这样我们就通过了年龄这个属性来提高了猜测其标签(是否患病)的能力。 当然,这只是一层,如果还有其他属性(例如性别),那么同样的还可以将这里划分完的数据继续划分,以进一步降低不确定性 ***-----------------------------------------------例子------------------------------------------------***

其中,选择属性的算法有以下三种,分别介绍一下原理:

1) ID3

算法度量标准是原始的熵与条件熵之差。 也就是原来数据的不确定性与划分完之后的数据不确定性之间的差值
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
熵是用于表示随机变量不确定性的度量。 例如下图表示当随机变量只取两个值(例如1,0)的时候,熵随着p(p = P(x=1))的变化情况。
H ( x ) = − ∑ i = 1 n p i l o g 2 ( p i ) H(x)= -\sum_{i=1}^n p_ilog_2(p_i) H(x)=i=1npilog2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值