【深度之眼】【百面机器学习】决策树

一、理论知识点

1.1 原理

顾名思义,决策树就是用一棵树来表示我们的整个决策过程。这棵树可以是二叉树(比如CART只能是二叉树),也 可以是多叉树(比如ID3、C4.5可以是多叉树或二叉树)。
根节点包含整个样本集,每个叶节点都对应一个决策结果(注意,不同的叶节点可能对应同一个决策结果),每一个内部节点都对应一次决策过程或者说是一次属性测试。从根节点到每个叶节点的路径对应一个判定测试序列。
举个例子:

就像上面这个例子,训练集由三个特征:outlook(天气),humidity(湿度),windy(是否有风)。那么我们该如何 选择特征对训练集进行划分那?连续型特征(比如湿度)划分的阈值又是如何确定的那?
决策树的生成就是不断的选择最优的特征对训练集进行划分,是一个递归的过程。递归返回的条件有三种:
(1)当前节点包含的样本属于同一类别,无需划分
(2)当前属性集为空,或所有样本在属性集上取值相同,无法划分
(3)当前节点包含样本集合为空,无法划分

1.2 ID3、C4.5、CART

熵表示的是数据中包含的信息量大小。熵越小,数据的纯度越高,也就是说数据越趋于一致,这是我们希望的划分之
后每个子节点的样子。
信息增益 = 划分前熵 - 划分后熵。信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是 说,用属性a来划分训练集,得到的结果中纯度比较高。
ID3仅仅能够处理离散属性

C4.5克服了ID3仅仅能够处理离散属性的问题,以及信息增益偏向选择取值较多特征的问题,使用信息增益比来选择特征。
信息增益比 = 信息增益 /划分前熵, 选择信息增益比最大的作为最优特征。
C4.5处理连续特征是先将特征取值排序,以连续两个值中间值作为划分标准。尝试每一种划分,并计算修正后的信息增益,选择信息增益最大的分裂点作为该属性的分裂点

CART CART与ID3,C4.5不同之处在于CART生成的树必须是二叉树。也就是说,无论是回归还是分类问题,无论特征是离散的还是连续的,无论属性取值有多个还是两个,内部节点只能根据属性值进行二分。

CART的全称是分类与回归树。从这个名字中就应该知道,CART既可以用于分类问题,也可以用于回归问题。

回归树中,使用平方误差最小化准则来选择特征并进行划分。每一个叶子节点给出的预测值,是划分到该叶子节点的所有样本目标值的均值,这样只是在给定划分的情况下最小化了平方误差。要确定最优化分,还需要遍历所有属性,以及其所有的取值来分别尝试划分并计算在此种划分情况下的最小平方误差,选取最小的作为此次划分的依据。由于回归树生成使用平方误差最小化准则,所以又叫做最小二乘回归树。

分类树种,使用Gini指数最小化准则来选择特征并进行划分; Gini指数表示集合的不确定性,或者是不纯度。基尼指数越大,集合不确定性越高,不纯度也越大。这一点和熵类似。另一种理解基尼指数的思路是,基尼指数是为了最小化误分类的概率。

我们通过百面书上的例子来说明一下Gini系数的计算过程:

1.3 信息增益 vs 信息增益比

之所以引入了信息增益比,是由于信息增益的一个缺点。那就是:信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项,解决了这个问题。

1.4 Gini指数 vs 熵

既然这两个都可以表示数据的不确定性,不纯度。那么这两个有什么区别那?

  • Gini指数的计算不需要对数运算,更加高效
  • Gini指数更偏向于连续属性,熵更偏向于离散属性

1.5 剪枝

决策树算法很容易过拟合(overfitting),剪枝算法就是用来防止决策树过拟合,提高泛华性能的方法。 剪枝分为预剪枝与后剪枝
预剪枝是指在决策树的生成过程中,对每个节点在划分前先进行评估,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点。

后剪枝是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来泛化性能的提升,则将该子树替换为叶节点。

那么怎么来判断是否带来泛化性能的提升那?最简单的就是留出法,即预留一部分数据作为验证集来进行性能评估。

我们讲述一下百面书上的代价复杂剪枝: 女孩需要对80个人进行见或不见的分类。假设根据某种规则,已经得到了一棵CART决策树

1.6 总结

决策树算法主要包括三个部分:特征选择、树的生成、树的剪枝。常用算法有ID3、C4.5、CART。

  • 特征选择。特征选择的目的是选取能够对训练集分类的特征。特征选择的关键是准则:信息增益、信息增益 比、Gini指数。
  • 决策树的生成。通常是利用信息增益最大、信息增益比最大、Gini指数最小作为特征选择的准则。从根节点开 始,递归的生成决策树。相当于是不断选取局部最优特征,或将训练集分割为基本能够正确分类的子集。
  • 决策树的剪枝。决策树的剪枝是为了防止树的过拟合,增强其泛化能力。包括预剪枝和后剪枝。

问:决策树中连续值和缺失值特征是如何处理的?

答:决策树中,对于连续属性,假设有n个样本,那么首先按照取值从小到大进行排序。取每两个值的中值作为候选 的划分点进行划分。n个样本,对应有n-1个区间,也就是n-1个候选划分点。尝试所有划分点之后,分别计算信息增 益,选取信息增益最大的划分点即可。对于属性有缺失值的情况,划分过程中计算属性信息增益的时候,只使用属性 没有缺失值的样本进行信息增益的计算。确定好分类之后,对于在该属性值有缺失的样本,将被归入所有的分支节 点。

二、代码

01 What is Decision-Tree

核心代码

from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(X, y)

完整代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

# 鸢尾花数据集:load_iris()
iris = datasets.load_iris()
x = iris.data[:, 2:]
y = iris.target

plt.scatter(x[y == 0, 0], x[y == 0, 1])
plt.scatter(x[y == 1, 0], x[y == 1, 1])
plt.scatter(x[y == 2, 0], x[y == 2, 1])
plt.show()

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion="entropy", random_state=42)
dt_clf.fit(x, y)


def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1] - axis[0]) * 100)).reshape(-1, 1),
        np.linspace(axis[2], axis
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值