数据挖掘学习之决策树算法

本文介绍了决策树的基本原理,包括通过训练集划分数据和选择最优划分属性。详细阐述了熵、条件熵和信息增益的概念,并讨论了ID3算法及C4.5算法的改进,如连续特征离散化、信息增益比和处理缺失值的方法。此外,还提到了决策树算法可能存在的过拟合问题和C4.5的局限性。
摘要由CSDN通过智能技术生成

1、决策树的基本原理

首先拥有训练集,训练集中获得属性集A,在根节点,训练集根据特征的不同取值,将训练集根据特征取值分为若干子数据集,对接下来的若干个子数据根据剩下来的属性特征进一步划分,使得叶子结点得到的数据集尽可能为同一类。这就是决策树的基本思想。类似与平时玩游戏是给出一个信息,然后回答:对或者错的游戏。

2、划分选择

2.1划分选择是指选择最优的划分属性,使得根据这一特征,将训练数据划分为若干个子集,使得每个子集尽可能得属于同一个类别。提高决策树的学习效率。

2.2熵和条件熵

熵是度量随机变量不确定性的度量。熵度量了事物的不确定性,越不确定的事物,它的熵就越大。

若X是离散型随机变量,其概率分布如下:

P(X=xi) = pi, i = 1,2,3,......n

随机变量X的熵的表达式如下:

H(X)=i=1npilogpi


2.1决策树ID3算法

首先,我们需要熟悉信息论中熵的概念。。具体的,

ID3算法就是利用信息增益大小来判断当前节点应该用什么特征来构建决策树。比如说,

我们有15个样本D,输出为0或者1。其中有9个输出为0, 6个输出为1。 样本中有个特征A,取值为A1,A2和A3。在取值为A1的样本的输出中,有3个输出为1, 2个输出为0,取值为A2的样本输出中,2个输出为1,3个输出为0, 在取值为A3的样本中,4个输出为1,1个输出为0.

    样本D的熵为:  H(D)=(915log2915+615log2615)=0.971 H(D)=−(915log2915+615log2615)=0.971

    样本D在特征下的条件熵为:  H(D|A)=515H(D1)+515H(D2)+515H(D3) H(D|A)=515H(D1)+515H(D2)+515H(D3)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值