决策树模型

最新推荐文章于 2024-03-18 21:01:22 发布

小白的学习之旅

最新推荐文章于 2024-03-18 21:01:22 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签：机器学习决策树

本文链接：https://blog.csdn.net/Miraitowa/article/details/108173583

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

##决策树模型简介

在下图中有这样一个问题，以下是对不同的年龄，收入等进行的采访。得到如下的表格。现在希望预测买计算机的年龄，性别等。
在这里插入图片描述

通过对上图的归纳可以得到以下一个树，如下：在这里插入图片描述
通过在这样的一个树中我们可以得到不同年龄，等不同因素对于购买计算机的影响因素。这就是一个简单的决策树模型。当然不仅仅只有这一个图。

在这里插入图片描述
以上三个图采用的是不同的划分方式而已。在如下的我们如何求某类或者具有某些特征的结果？在上图中年龄，是否为学生，信誉等哪个在序列靠前的子树呢？在决策树中什么是最为重要的呢？当然是结点与树枝，在此我们需要在介绍些新的概念。
信息熵

简单来说信息熵就是信息的信息量的度量：
在这里插入图片描述
平均信息熵为如下：

在这里插入图片描述

这里是计算熵的方法。在这里插入图片描述

在上图的问题中我们可以这样进行求解。
在这里插入图片描述

##决策树实现

##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

## 我们利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('datalab/531811/Datawhale/penguins_raw.csv')
## 为了方便我们仅选取四个简单的特征，有兴趣的同学可以研究下其他特征的含义以及使用方法
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]
        
## 我们利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('datalab/531811/Datawhale/penguins_raw.csv')
## 为了方便我们仅选取四个简单的特征，有兴趣的同学可以研究下其他特征的含义以及使用方法
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]

## 进行简单的数据查看，我们可以利用 .head() 头部.tail()尾部
data.head()

data = data.fillna(-1)
data.tail()

## 其对应的类别标签为'Adelie Penguin', 'Gentoo penguin', 'Chinstrap penguin'三种不同企鹅的类别。
data['Species'].unique()
## array(['Adelie Penguin (Pygoscelis adeliae)',
##       'Gentoo penguin (Pygoscelis papua)',
##       'Chinstrap penguin (Pygoscelis antarctica)'], dtype=object)
## 利用value_counts函数查看每个类别数量
pd.Series(data['Species']).value_counts()
## Adelie Penguin (Pygoscelis adeliae)          152
## Gentoo penguin (Pygoscelis papua)            124
## Chinstrap penguin (Pygoscelis antarctica)     68
## Name: Species, dtype: int64

## 特征与标签组合的散点可视化
sns.pairplot(data=data, diag_kind='hist', hue= 'Species')
plt.show()

在这里插入图片描述

'''为了方便我们将标签转化为数字
       'Adelie Penguin (Pygoscelis adeliae)'        ------0
       'Gentoo penguin (Pygoscelis papua)'          ------1
       'Chinstrap penguin (Pygoscelis antarctica)   ------2 '''

def trans(x):
    if x == data['Species'].unique()[0]:
        return 0
    if x == data['Species'].unique()[1]:
        return 1
    if x == data['Species'].unique()[2]:
        return 2

data['Species'] = data['Species'].apply(trans)
for col in data.columns:
    if col != 'Species':
        sns.boxplot(x='Species', y=col, saturation=0.5, palette='pastel', data=data)
        plt.title(col)
        plt.show()

# 选取其前三个特征绘制三维散点图
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(10,8))
ax = fig.add_subplot(111, projection='3d')

data_class0 = data[data['Species']==0].values
data_class1 = data[data['Species']==1].values
data_class2 = data[data['Species']==2].values
# 'setosa'(0), 'versicolor'(1), 'virginica'(2)
ax.scatter(data_class0[:,0], data_class0[:,1], data_class0[:,2],label=data['Species'].unique()[0])
ax.scatter(data_class1[:,0], data_class1[:,1], data_class1[:,2],label=data['Species'].unique()[1])
ax.scatter(data_class2[:,0], data_class2[:,1], data_class2[:,2],label=data['Species'].unique()[2])
plt.legend()

plt.show()

在这里插入图片描述

决策树的构建过程是一个递归过程。函数存在三种返回状态：（1）当前节点包含的样本全部属于同一类别，无需继续划分；（2）当前属性集为空或者所有样本在某个属性上的取值相同，无法继续划分；（3）当前节点包含的样本集合为空，无法划分。

Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择：
输入”entropy“，使用信息熵（Entropy）
输入”gini“，使用基尼系数（Gini Impurity）

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显。splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

限制树的最大深度，超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。

min_samples_leaf 限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。

小白的学习之旅

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
决策树模型

##决策树模型简介在下图中有这样一个问题，以下是对不同的年龄，收入等进行的采访。得到如下的表格。现在希望预测买计算机的年龄，性别等。通过对上图的归纳可以得到以下一个树，如下：通过在这样的一个树中我们可以得到不同年龄，等不同因素对于购买计算机的影响因素。这就是一个简单的决策树模型。当然不仅仅只有这一个图。以上三个图采用的是不同的划分方式而已。在如下的我们如何求某类或者具有某些特征的结果？在上图中年龄，是否为学生，信誉等哪个在序列靠前的子树呢？在决策树中什么是最为重要的呢？当然是结点与树枝，在此我
复制链接

扫一扫