Sklearn——决策树

1.决策树

决策树是一种常见的机器学习算法,它的原理就是以事物的属性为节点,属性的不同取值为分支构造一棵多叉树。初始的多叉树可以学习到训练集上的事物的所有属性,我们通过相关的方法对这棵树进行剪枝和层次调整后,使之对于训练集中未出现过的新数据具有一定的分类能力,即泛化。

2.决策树算法种类

由1中对决策树的描述,我们可以知道生成决策树的核心问题就是分支的选择,即每一步我们应该选择待分类事物的哪一个属性作为分支属性,我们应该把对事物影响大的属性尽可能放在树的高层,这是因为越往下走剩下的样本就会越少对事物影响大的属性应该在树中对大多数样本起到分类作用。基于不同的分支选择方法,决策树主要有三类,即ID3算法,C4.5算法和CART算法。

1.ID3算法

在这里插入图片描述

2.C4.5算法

ID3中使用的信息增益偏向取值较多的属性,如果有“编号”这类属性,那ID3算法会把编号作为最优属性,这很荒诞,C4.5算法就使用增益率代替增益,解决这种问题。增益率公式如下:
在这里插入图片描述
在这里插入图片描述
此外,为了避免偏向于取值数目少的属性,C4.5算法并不是直接选取增益率最大的属性进行分支,而是启发式的,先找出信息增益高于平均值的属性,再从中选出增益率最高的作为分支属性。

3.CART算法

CART算法使用基尼指数来作为划分原则,基尼指数公式为:
在这里插入图片描述
在这里插入图片描述

3.SKlearn决策树算法DecisionTreeClassifier

from numpy.lib.arraypad import pad
from sklearn.datasets import load_iris
import pandas as pd
from pandas import plotting 
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn import tree

#加载数据集
data = load_iris()
#转换成DataFrame形式
df = pd.DataFrame(data.data, columns=data.feature_names)
#添加品种列
df['Species'] = data.target
#查看数据集信息
df.info()
#查看前5条数据
df.head()
#查看各特征列的摘要信息
df.describe()

#设置颜色主题
antV = ['#1890FF', '#2FC25B', '#FACC14', '#223273', '#8543E0', '#13C2C2', '#3436c7', '#F04864'] 

# 绘制violinplot
f, axes = plt.subplots(2, 2, figsize=(8, 8), sharex=True)
sns.despine(left=True) # 删除上方和右方坐标轴上不需要的边框,这在matplotlib中是无法通过参数实现的
sns.violinplot(x='Species', y=df.columns[0], data=df, palette=antV, ax=axes[0, 0])
sns.violinplot(x='Species', y=df.columns[1], data=df, palette=antV, ax=axes[0, 1])
sns.violinplot(x='Species', y=df.columns[2], data=df, palette=antV, ax=axes[1, 0])
sns.violinplot(x='Species', y=df.columns[3], data=df, palette=antV, ax=axes[1, 1])
plt.show()
# 绘制pointplot
f, axes = plt.subplots(2, 2, figsize=(8, 6), sharex=True)
sns.despine(left=True)
sns.pointplot(x='Species', y=df.columns[0], data=df, color=antV[1], ax=axes[0, 0])
sns.pointplot(x='Species', y=df.columns[1], data=df, color=antV[1], ax=axes[0, 1])
sns.pointplot(x='Species', y=df.columns[2], data=df, color=antV[1], ax=axes[1, 0])
sns.pointplot(x='Species', y=df.columns[3], data=df, color=antV[1], ax=axes[1, 1])
plt.show()
# g = sns.pairplot(data=df, palette=antV, hue= 'Species')
# 安德鲁曲线
plt.subplots(figsize = (8,6))
plotting.andrews_curves(df, 'Species', colormap='cool')

plt.show()

# 加载数据集
data = load_iris() 
# 转换成.DataFrame形式
df = pd.DataFrame(data.data, columns = data.feature_names)
# 添加品种列
df['Species'] = data.target

# 用数值替代品种名作为标签
target = np.unique(data.target)
target_names = np.unique(data.target_names)
targets = dict(zip(target, target_names))
df['Species'] = df['Species'].replace(targets)

# 提取数据和标签
X = df.drop(columns="Species")
y = df["Species"]
feature_names = X.columns
labels = y.unique()

X_train, test_x, y_train, test_lab = train_test_split(X,y,
                                                 test_size = 0.4,
                                                 random_state = 42)
model = DecisionTreeClassifier(max_depth =3, random_state = 42)
model.fit(X_train, y_train) 
# 以文字形式输出树     
text_representation = tree.export_text(model)
print(text_representation)
# 用图片画出
plt.figure(figsize=(30,10), facecolor ='g') #
a = tree.plot_tree(model,
                   feature_names = feature_names,
                   class_names = labels,
                   rounded = True,
                   filled = True,
                   fontsize=14)
plt.show()  

请添加图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4 优缺点

优缺点
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题
适用数据类型:数值型和标称型

https://github.com/datawhalechina/machine-learning-toy-code/blob/main/ml-with-sklearn/DecisionTree/DecisionTree.ipynb
https://mp.weixin.qq.com/s/kxAuVAhnimskmT667JjrFA
https://blog.csdn.net/baidu_38406307/article/details/102879578?spm=1001.2014.3001.5501

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
决策树的最大树深度在Python可以通过设置参数进行控制。在sklearn决策树算法的函数DecisionTreeClassifier有一个参数max_depth用于指定决策树的最大深度。通过设置这个参数,可以限制决策树生成的深度,以控制模型的复杂度和泛化能力。默认情况下,max_depth的值为None,表示决策树会继续分裂直到所有叶节点都是纯净的(所有样本都属于同一类别)或者达到其他终止条件。如果将max_depth设置为一个正整数,决策树的生成过程会在达到指定深度后停止分裂。例如,将max_depth设置为2,决策树的最大深度就是2层。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Python算法决策树分类](https://blog.csdn.net/qq_52417436/article/details/127022698)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Python机器学习——决策树](https://blog.csdn.net/calisenanming/article/details/127390253)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值