大数据与人工智能方向基础 ---- 特征选择与决策树的构建

纯节点,不纯节点,节点不纯度的度量方式(熵不纯度,方差不纯度,误差不纯度),信息增益,增益率,基尼指数,决策树算法的历史,ID3决策树算法,C4.5决策树算法,CART分类树算法,CART回归树的构建……
摘要由CSDN通过智能技术生成

目录

前言

一、面向分类问题的决策树特征选择

1、纯节点、不纯节点

2、节点的不纯度(杂度)

1.2.1 熵不纯度

1.2.2  方差不纯度

1.2.3  误差不纯度

3、基于不纯度的节点特征选择规则 ---- 以分类树为例

3.1  信息增益

3.2  增益率

3.3  基尼指数

二、分类树的构建

1、决策树算法的研究历史

2、ID3决策树算法

2.1  ID3算法基本思想

2.2  算法基本点

2.3  算法说明

2.4  算法步骤

3、C4.5决策树

3.1  C4.5算法简述

3.2  C4.5算法是ID3算法的后继和改进

3.3  C4.5算法步骤

3.4  C4.5算法关于连续数值特征的处理方法 ---- 二分法

3.5  C4.5算法关于特征缺失值的处理方式

4、CART决策树

4.1  CART树的引入

4.2  递归二叉分类树的生成算法

三、回归树的构建

1、基本思想

2、CART树 ---- 最小二乘回归树生成算法


前言

有很多新手刚刚接触大数据与人工智能方向学习,如果不知道怎么着手的,跟我一起慢慢进步叭~


提示:以下是本篇文章正文内容,下面案例可供参考

一、面向分类问题的决策树特征选择

1、纯节点、不纯节点

若到达某节点的训练样本集只含一类样本,则该节点为纯节点,或同质节点

否则,为不纯节点,或异构节点

2、节点的不纯度(杂度)

关于决策树节点不纯程度的度量。

节点不纯度的典型度量方式:

前提:

1.2.1 熵不纯度

1.2.2  方差不纯度

1.2.3  误差不纯度

两类别分类,关于同一个数据集的三种不纯度度量与某类概率关系:

3、基于不纯度的节点特征选择规则 ---- 以分类树为例

一般而言,随着节点划分的不断进行,希望决策树分支节点所含样本尽量来自相同类别,即:节点的纯度不断增加。

3.1  信息增益

信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第 k 类样本所占的比例为pk,则D的信息熵定义为:

Ent(D)的值越小,D的纯度越高

假定离散属性a有v个可能的取值{a1,a2,…,av},若使用a来对样本集D进行划分,则会产生v个分支节点,其中第v个分支节点包含了D中所有在属性a上取值为av的样本,记为Dv,我们可根据上式计算出Dv的信息熵,再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重|Dv| / |D|,即样本数越多的分支节点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的信息增益

一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大,即每次划分分支时选择信息增益最大的那个属性

3.2  增益率

实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的决策树算法不直接使用信息增益,而是使用增益率来选择最后划分属性。增益率定义为:,其中,称为属性a的固有值。

一般来说,属性a的可能取值数目越多(即v越大),则IV(a)的值通常会越大

需要注意的是,增益率准则对可取值数目较少的属性有所偏好。因此,我们并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

3.3  基尼指数

CART决策树使用基尼指数来选择划分属性。数据集D的纯度可用基尼值来度量:

直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,数据集D的纯度越高

属性a的基尼指数定义为:

我们在侯选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性

二、分类树的构建

1、决策树算法的研究历史

第一个决策树算法:CLS

真正引发决策树研究热潮的算法:ID3,其增量版本还有:ID4,ID5等。

最流行的决策树算法:C4.5,以ID3为基础,可处理连续特征的算法。

通用的决策树算法:CART

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值