scikit-klearn学习(决策树:分类树)

一.认识决策树

【1】什么是决策树?

决策树是一种非参数的有效监督学习的方法,他能过从一系列有特征和标签的数据中 总结出来决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题

【2】什么地方应用?

尤其是在以树模型为核心的各种集成算法中有广泛应用

【3】是如何工作的?

决策树的算法本身是一种图的结构,我们只需要问一系列问题就可以对数据进行分类了。
在一个决策过程中,我们一直对记录的特征进行提问,最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点
在这里插入图片描述

根节点:没有进边,只有出边,针对特征提问
中间节点:既没有进边,出边只有一条,都是针对特征的提问
叶子节点:有进边没有出边,每一个叶子节点都是一个类别的标签
子节点和父节点:在两个相连的节点中。更接近根节点的是父节点,另一个是子节点

【4】核心解决两个问题

【1】如何从数据表中找到最佳节点和最佳分支?
【2】如何让决策树停止生长,防止过拟合?

二.sklearn中的决策树

【1】模块

整个模块分为:

  1. 分类树
  2. 回归树
  3. 将生成的决策树导出为DOT格式,画图专用
  4. 高随机版本的分类树
  5. 高随机版本的回归树

【2】流程

1.实例化,建立评估模型对象
2.通过模型接口训练模型
3.通过模型接口提供需要的信息

三.分类树

【1】重要参数

1.criterion

为了要将表格转化为一棵树,决策树需要找到最佳节点和最佳分支方法,对分类树来说,衡量这个“最佳”的指标叫做不纯度,通常来说,不纯度越低,决策树对训练集的拟合越好,现在使用的决策树的算法在分支方向大多数都是围绕在一个不纯度相关指标的最优化上。
不纯度基于节点来说,数的每个节点都会有一个不纯度,并且子节点的不纯度一定低于符节点的,也就是说在同一个决策树上,子节点的不纯度一定是最低的
这个参数正是用来计算不纯度的计算方法,sklearn提供了两种选择
【1】输入“entropy”,使用信息熵。
【2】输入“gini”,使用基尼系数。
Entropy(t)= − ∑ i = 0 c − 1 P ( i ∣ t ) log ⁡ 2 p ( i ∣ t ) \begin{aligned}-\sum ^{c-1}_{i=0}P\left( i| t\right) \log _{2}p\left( i| t\right) \end{aligned} i=0c1P(it)log2p(it)
Gini(t)= 1 − ∑ i = 0 c − 1 p ( i ∣ t ) 2 1-\sum ^{c-1}_{i=0}p\left( i| t\right) ^{2} 1i=0c1p(it)2
其中t代表的给定的节点,i代表标签的任意分类,p(i∣t)表示表亲分布i在节点t上的比例

信息熵对于不纯度更加敏感,所以在高维数据或者噪音很多的数目,信息熵很容易过拟合,基尼系数在这种情况下效果性会更好(不是绝对的)
在实际使用中,信息熵和基尼系数的效果基本相同

参数criterion
如何影响模型确定不纯度的计算方法,帮忙找到最佳节点和最佳分支,不纯度越低,决策树的拟合越好
可能的输入有哪些?不填默认为基尼系数
如何选择参数1. 通常使用基尼系数 2. 数据维度很大,噪音很大的时候使用基尼系数 3.纬度低数据清晰的时候么有区别 4.决策数的拟合程度不够的时候使用信息熵

2.建立一个树1

from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
wine=load_wine()
wine

在这里插入图片描述

wine.data
wine.target

在这里插入图片描述
我们可以用一下语法制作表格的形式、

wine.data.shape
import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

在这里插入图片描述

3. 建立一个树2

wine.feature_names

查找特征的名字,为以后留以参考

wine.target_names

查找标签的名字

Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

数据分为测试集和数据集,test size的意思是百分之三十是测试集,剩下的是训练集
train_test_split() 是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数;使用train_test_split函数可以将原始数据集按照一定比例划分训练集和测试集对模型进行训练

x,y 是原始的数据集。
X_train,y_train 是原始数据集划分出来作为训练模型的,fit模型的时候用。

X_test,y_test 这部分的数据不参与模型的训练,而是用于评价训练出来的模型好坏,score评分的时候用。

test_size=0.2 测试集的划分比例。如果为浮点型,则在0.0-1.0之间,代表测试集的比例;如果为整数型,则为测试集样本的绝对数量;如果没有,则为训练集的补充。

Xtrain.shape
Xtest.shape
Ytrain

开始建立模型

clf =tree.DecisionTreeClassifier(criterion='entropy')
clf =clf .fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest) # 返回值预测的准确性
score
feature_name =['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/0d315稀释葡萄酒','脯氨酸']
import graphviz 
dot_data=tree.export_graphviz(clf
                              ,feature_names=feature_name
                              ,class_names=["琴酒","雪梨","贝尔摩德"]
                              ,filled=True
                              ,rounded=True
                             )
graph =graphviz.Source(dot_data)
graph

在这里插入图片描述
在这里插入图片描述

filled是颜色,rounded是方框要是圆角

在这里插入图片描述
查看所有特征的重要性

[*zip(feature_name,clf.feature_importances_)]

在这里插入图片描述

4.优化树

我们在以上步骤上形成了完整的树,score打分步骤每次运行结果都不一样,所以说这个是不稳定的我们之前提过的无论决策树模型如何变化,在分支上的本质都还是追求某个不纯度相关的指标的优化,不纯度是基于节点来计算的,也就是说,决策树在建树的时候是靠优化节点来追求一颗最优树、集成算法来解决这个问题,sklearn表示,既然一棵树不能保证最优,那就间更多不同的树,然后从中取最好的,在每次分支的时候,不从使用全部特征,而是随机选取特征,从中选取不纯度相关指标最优作为分支用的节点,这样,每次生成的树也就不同了

clf =tree.DecisionTreeClassifier(criterion='entropy',random_state=30)
clf =clf .fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest) # 返回值预测的准确性
score

输出的结果:0.9629629629629

【1】 而且不会改变,这里的“30”可以改变任意数字
【2】random_state用来设置分支中的随机模式的参数,默认为None,在高维度时随机性表现会更加明显,低纬度就不明显了,随意性几乎不显现,输入任意整数,会一直长出同一棵树,让模型稳定下来

5.random_state&splitter

splitter 也是用来控制决策树的随机选项的参数,有两种输入值,输入值“best”,决策树在分支时虽然随机,但还是会优先选择更重要的特征来进行分支(重要性可以通过属性==feature_importances_==查看),输入“random”,决策树在分支时会更加随机,树会更深,对训练集的拟合将会降低,这也是防止过拟合的一个方法

clf =tree.DecisionTreeClassifier(criterion='entropy'
                                 ,random_state=0
                                , splitter="random")
clf =clf .fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest) # 返回值预测的准确性
score
import graphviz 
dot_data=tree.export_graphviz(clf
                              ,feature_names=feature_name
                              ,class_names=["琴酒","雪梨","贝尔摩德"]
                              ,filled=True
                              ,rounded=True
                             )
graph =graphviz.Source(dot_data)
graph

在这里插入图片描述

【2】剪枝参数

在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止,往往会过拟合,这就是说他会在训练集上表现很好,在测试集上却表现糟糕,我们的模型的拟合程度?

score_train=clf.score(Xtrain,Ytrain)
score_train  # 1.0

剪枝策略对决策树的影响巨大,正确的剪枝策略石油化决策树算法的核心

1.max_depth

限制树的最大深度,超过设定深度的全部剪掉
用的最广泛的 ,在高纬度低样本量的时候非常有效,决策树多生长一层,对样本的量就会翻一倍,可以特别有效的限制过拟合,在平时使用的时候可以用=3开始尝试,判断准确率

2.min_samples_leaf 和 min_samples_split

min_samples_leaf限定,一个节点在分支后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分支不会发生,或者,分支会沿着每个节点都包括min_samples_leaf个样本的方向去发生
一般搭配max_depth搭配的使用,这个数设置的太小会过拟合,若太小则欠拟合,建议从5开始,可以使用浮点数作为样本量的百分比来使用,这个参数可以保证每个叶子的最小尺寸
min_samples_split限定,每个节点必须包含至少min_samples_split个训练样本,这个节点才允许被分支,否则分支不会发生

clf =tree.DecisionTreeClassifier(criterion='entropy'
                                 ,random_state=0
                                , splitter="random"
                                ,max_depth=3
                                ,min_samples_leaf=10
                                ,min_samples_split=10
                                )
clf =clf .fit(Xtrain,Ytrain)
dot_data=tree.export_graphviz(clf
                              ,feature_names=feature_name
                              ,class_names=["琴酒","雪梨","贝尔摩德"]
                              ,filled=True
                              ,rounded=True
                             )
graph =graphviz.Source(dot_data)
graph

在这里插入图片描述

3.max_features & min_impurity_decrease

一般max_depth使用,用作树的”精修“
max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工,max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量
而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型
学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。
min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本种更新的
功能,在0.19版本之前时使用min_impurity_split。

4.确认最优的剪枝参数

那具体怎么来确定每个参数填写什么值呢?这时候,我们就要使用确定超参数的曲线来进行判断了,
超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲
线,它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里,我们的模型度量指标就是score。

import matplotlib.pyplot as plt
test = []
for i in range(10):
    clf=tree.DecisionTreeClassifier(max_depth=i+1
                                      ,criterion="entropy"
                                      ,random_state=11
                                      ,splitter="random"
                                   )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

在这里插入图片描述

注意:【1】选择参数方法后续讲解 【2】参数不一定提高模型在测试集上的表现

【3】目标权重参数

1.class_weight 和 min_weight_fraction_leaf

完成样本标签平衡的参数。样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例。比如说,在银行要
判断“一个办了信用卡的人是否会违约”,就是是vs否(1%:99%)的比例。这种分类状况下,即便模型什么也不做,全把结果预测成“否”,正确率也能有99%。因此我们要使用class_weight参数对样本标签进行一定的均衡,==给少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None,此模式表示自动给与数据集中的所有标签相同的权重

有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配min_weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意,基于权重的剪枝参数(min_weight_fraction_leaf)将比不知道样本权重的标准(比如min_samples_leaf)更少偏向主导类。如如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分

【4】重要属性和接口

属性是在模型训练之后,能够调用查看的模型的各种性质。对决策树来说,最重要的是feature_importances_,能
够查看各个特征对模型的重要性。
sklearn中许多算法的接口都是相似的,比如说我们之前已经用到的fit和score,几乎对每个算法都可以使用。除了
这两个接口之外,决策树最常用的接口还有apply和predict。apply中输入测试集返回每个测试样本所在的叶子节
点的索引,predict输入测试集返回每个测试样本的标签。返回的内容一目了然并且非常容易,大家感兴趣可以自己
下去试试看。

#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)
#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)

七个参数:Criterion,两个随机性相关的参数(random_state,splitter),四个剪枝参数(max_depth, ,
min_sample_leaf,max_feature,min_impurity_decrease)
一个属性:feature_importances_ 四个接口:fit,score,apply,predict

四.实例:分类树在合成数集上的表现

1. 导入需要的库

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.tree import DecisionTreeClassifier

2.生成的各种数据

从sklearn自带的数据库中生成三种类型的数据集:1)月亮型数据,2)环形数据,3)二分型数据

#make_classification库生成随机的二分型数据
X, y = make_classification(n_samples=100, #生成100个样本
                           n_features=2,  #包含2个特征,即生成二维数据
                           n_redundant=0, #添加冗余特征0个
                           n_informative=2, #包含信息的特征是2个
                           random_state=1,  #随机模式1
                           n_clusters_per_class=1 #每个簇内包含的标签类别有1个
                         )
#在这里可以查看一下X和y,其中X是100行带有两个2特征的数据,y是二分类标签
#也可以画出散点图来观察一下X中特征的分布
#plt.scatter(X[:,0],X[:,1])

3. 画出三种数据集和三棵决策树的分类效应图像

#创建画布,宽高比为6*9
figure = plt.figure(figsize=(6, 9))
#设置用来安排图像显示位置的全局变量i i = 1 #开始迭代数据,对datasets中的数据进行for循环
for ds_index, ds in enumerate(datasets):
    
    #对X中的数据进行标准化处理,然后分训练集和测试集
    X, y = ds
    X = StandardScaler().fit_transform(X) 
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4, 
random_state=42)
    
    #找出数据集中两个特征的最大值和最小值,让最大值+0.5,最小值-0.5,创造一个比两个特征的区间本身更大
一点的区间
    x1_min, x1_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    x2_min, x2_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    
    #用特征向量生成网格数据,网格数据,其实就相当于坐标轴上无数个点
    #函数np.arange在给定的两个数之间返回均匀间隔的值,0.2为步长
    #函数meshgrid用以生成网格数据,能够将两个一维数组生成两个二维矩阵。
    #如果第一个数组是narray,维度是n,第二个参数是marray,维度是m。那么生成的第一个二维数组是以
narray为行,m行的矩阵,而第二个二维数组是以marray的转置为列,n列的矩阵
    #生成的网格数据,是用来绘制决策边界的,因为绘制决策边界的函数contourf要求输入的两个特征都必须是二
维的
    array1,array2 = np.meshgrid(np.arange(x1_min, x1_max, 0.2),
                         np.arange(x2_min, x2_max, 0.2))
    #接下来生成彩色画布
    #用ListedColormap为画布创建颜色,#FF0000正红,#0000FF正蓝
    cm = plt.cm.RdBu
    cm_bright = ListedColormap(['#FF0000', '#0000FF'])
    
    #在画布上加上一个子图,数据为len(datasets)行,2列,放在位置i上
    ax = plt.subplot(len(datasets), 2, i)
    #到这里为止,已经生成了0~1之间的坐标系3个了,接下来为我们的坐标系放上标题
    #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件
    if ds_index == 0:
        ax.set_title("Input data")
    
    #将数据集的分布放到我们的坐标系上
    #先放训练集
    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, 
               cmap=cm_bright,edgecolors='k')
    #放测试集
    ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, 
               cmap=cm_bright, alpha=0.6,edgecolors='k')
    
     #为图设置坐标轴的最大值和最小值,并设定没有坐标轴
    ax.set_xlim(array1.min(), array1.max())
    ax.set_ylim(array2.min(), array2.max())
    ax.set_xticks(())
    ax.set_yticks(())
    
    #每次循环之后,改变i的取值让图每次位列不同的位置
    i += 1
    
    #至此为止,数据集本身的图像已经布置完毕,运行以上的代码,可以看见三个已经处理好的数据集
    
    #############################从这里开始是决策树模型##########################
    
    #迭代决策树,首先用subplot增加子图,subplot(行,列,索引)这样的结构,并使用索引i定义图的位置
    #在这里,len(datasets)其实就是3,2是两列
    #在函数最开始,我们定义了i=1,并且在上边建立数据集的图像的时候,已经让i+1,所以i在每次循环中的取值246
    ax = plt.subplot(len(datasets),2,i)
    
    #决策树的建模过程:实例化 → fit训练 → score接口得到预测的准确率
    clf = DecisionTreeClassifier(max_depth=5)
    clf.fit(X_train, y_train)
    score = clf.score(X_test, y_test)
    
    #绘制决策边界,为此,我们将为网格中的每个点指定一种颜色[x1_min,x1_max] x [x2_min,x2_max]
    #分类树的接口,predict_proba,返回每一个输入的数据点所对应的标签类概率
    #类概率是数据点所在的叶节点中相同类的样本数量/叶节点中的样本总数量
    #由于决策树在训练的时候导入的训练集X_train里面包含两个特征,所以我们在计算类概率的时候,也必须导入
结构相同的数组,即是说,必须有两个特征
    #ravel()能够将一个多维数组转换成一维数组
    #np.c_是能够将两个数组组合起来的函数
    #在这里,我们先将两个网格数据降维降维成一维数组,再将两个数组链接变成含有两个特征的数据,再带入决策
树模型,生成的Z包含数据的索引和每个样本点对应的类概率,再切片,且出类概率
    Z = clf.predict_proba(np.c_[array1.ravel(),array2.ravel()])[:, 1]
    
    #np.c_[np.array([1,2,3]), np.array([4,5,6])]
    
    #将返回的类概率作为数据,放到contourf里面绘制去绘制轮廓
    Z = Z.reshape(array1.shape)
     ax.contourf(array1, array2, Z, cmap=cm, alpha=.8)
    
    #将数据集的分布放到我们的坐标系上
    # 将训练集放到图中去
    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
               edgecolors='k')
    # 将测试集放到图中去
    ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,
               edgecolors='k', alpha=0.6)
    
    #为图设置坐标轴的最大值和最小值
    ax.set_xlim(array1.min(), array1.max())
    ax.set_ylim(array2.min(), array2.max())
    #设定坐标轴不显示标尺也不显示数字
    ax.set_xticks(())
    ax.set_yticks(())
    
    #我们有三个坐标系,但我们只需要在第一个坐标系上有标题,因此设定if ds_index==0这个条件
    if ds_index == 0:
        ax.set_title("Decision Tree")
    
    #写在右下角的数字    
    ax.text(array1.max() - .3, array2.min() + .3, ('{:.1f}%'.format(score*100)),
            size=15, horizontalalignment='right')
    
    #让i继续加一
    i += 1
plt.tight_layout()
plt.show()

在这里插入图片描述

从图上来看,每一条线都是决策树在二维平面上画出的一条决策边界,每当决策树分枝一次,就有一条线出现。当
数据的维度更高的时候,这条决策边界就会由线变成面,甚至变成我们想象不出的多维图形。
同时,很容易看得出,分类树天生不擅长环形数据。每个模型都有自己的决策上限,所以一个怎样调整都无法提升
表现的可能性也是有的。当一个模型怎么调整都不行的时候,我们可以选择换其他的模型使用,不要在一棵树上吊
死。顺便一说,最擅长月亮型数据的是最近邻算法,RBF支持向量机和高斯过程;最擅长环形数据的是最近邻算法
和高斯过程;最擅长对半分的数据的是朴素贝叶斯,神经网络和随机森林。

注意:最后一节不需要看懂

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值