西瓜书 第4章决策树 4.1-4.2

决策树

概念

分类树为例

逻辑: 从根节点出发,对样例的每一个属性进行判断,根据判断结果,将样例分配到其子节点中,此时,每个节点又对应着该属性的一个取值,如此递归的对样例进行判断和分配,直至将样例分配到叶子结点中,其基本流程遵循简单且直观的分而治之的策略。

算法模型:
在这里插入图片描述

算法原理: 构造根节点,将所有训练数据集都放到根节点,选择一个最优特征,将训练数据集分割成子集,使得训练集在当前按条件下有最好的分类。如果这些子集已经可能很好的分类,那么构建叶节点,如果还不能很好的分类,继续对其分割,构造相应的结点,如此递归进行,直至所有训练数据集被基本正确分类,或者没有合适的特征为止。所以决策树学习算法通常是递归的选择特征对数据集进行分割,以达到最好的分类结果。

本质: 实际上是一个树形数据结构,是一个 if - then 的规则集合,根节点到叶子结点的每一条路径构建成一条规则,用规则进行分类。

性质:

  1. 完备性:每个样例都有一条规则路径所覆盖
  2. 互斥性:每个样例只有一条规则路径所覆盖

  构建决策树规则路径的依据是条件概率,这一条件概率分布定义在特征空间的一个划分上,决策树的路径就是一个划分单元,决策树分类时将该节点的样例强行分配到条件概率大的一个类别中。

决策树学习

本质: 是从训练数据集中归纳出一组分类规则,这种决策规则有可能没有,也可能是多个,这时候需要选择一个决策树规则,与数据集矛盾较小的同时又需要很好的泛化效果。

  经过基本的学习,决策树可能对训练集有了很好的分类能力,但是对未知数据不一定同样有很好的分类效果,所以,为了避免过拟合现象,还需要对生成的树进行剪枝,将树变得更简单,以实现更好的泛化能力。

特征选择

目的: 选择具有分类能力的特征,如果利用一个特征进行分类与随机分类没有区别,则这个特征就不具备分类能力。

准则: 信息增益信息增益比(也叫信息增益率)。

信息熵: 熵常用在信息论和概率统计中,是一种表示随机变量不确定性的度量。

  设 D 为一个取有限个值的离散随机变量,其概率分布为:P( D = x_k ) = p_k, k=1,2,3,···,|y| 则随机变量 D 的信息熵为
在这里插入图片描述

  从上式能看出熵与 D 的取值无关,只依赖于 D 的分布。其中 Ent(D) 的最小值为 0 ,最大值为 log2|y|。

信息条件熵:
  对于随机变量 ( X , Y ) ,其联合概率分布为
在这里插入图片描述

条件熵 H( X | Y ) 就表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。定义在条件 X 下 Y 的条件概率分布的熵对 X 的数学期望。
在这里插入图片描述

信息增益就表示在得知特征 X 的条件下类别 Y 的不确定性程度。

信息增益:
  熵 Ent(D) 与条件熵 H( X | Y ) 之差称为互信息,决策树学习中信息增益就等价于训练数据集中类与特征的互信息,假定离散属性 a 有 V 个可能的取值{a1,a2,···,a^V},若使用 a 来对样本集 D 进行划分,则会产生 V 个分支结点,其中第 v 个分支结点包含了 D 中所有在属性 a 上取值为 a^v 的样本,记为 D^v 。此时算出其信息熵,再赋予权重 | D^v |/| D |那么对于训练数据集 D 和特征 a ,信息增益可以表示为
在这里插入图片描述

公式中的后半部分就是条件熵 H( X | Y ) 。

信息增益算法模型:
在这里插入图片描述

信息增益的特征选择方法: 对训练集计算其每个特征的信息增益并比较大小,选择信息增益最大的特征。

信息增益比:
以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,为了矫正这个问题,可以使用信息增益比。
在这里插入图片描述

其中:
在这里插入图片描述

信息增益比本质: 在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。

  不过和信息增益类似的加入信息增益比之后也有一个缺点,信息增益比会偏向于选择取值较少的特征,所以出现一种表示样本纯度的方法即基尼系数

基尼系数:
基尼系数的表示为
在这里插入图片描述

对于二分类问题,基尼系数为
在这里插入图片描述

对于给定一个样本集合D,其基尼系数为
在这里插入图片描述

同样,条件熵也可以定义为
在这里插入图片描述

基尼系数本质: Gini(D) 反应了从数据集 D 中随机抽取两个样本,其类别标记不一致的概率,因此, Gini(D) 越小,数据集的纯度越高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值