决策树 信息熵 条件熵 基尼系数 信息增益 信息增益率 CART 随机森林

本文深入探讨了决策树的构建原理,包括信息熵、条件熵、基尼系数及其在划分数据时的作用。介绍了信息增益与信息增益率的概念,以及它们在C3和C4.5算法中的应用。此外,还讨论了CART决策树的优缺点,并阐述了随机森林如何通过多棵树的集成来提高模型稳定性和抗干扰能力。
摘要由CSDN通过智能技术生成
决策树:

决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一个分类类别。通过训练数据构建决策树,可以对未知数据进行分类,
在这里插入图片描述
上面的决策树深度depth为3

使用鸢尾花数据

import numpy as np
import matplotlib.pyplot as plt


from sklearn import datasets
iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target

plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

在这里插入图片描述

# 绘制边界
def plot_decision_boundary(model,axis):
    x0,x1 = np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100))
    )
    x_new = np.c_[x0.ravel(),x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,cmap=custom_cmap)
    

使用sklearn中决策树 使用信息熵

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(max_depth=2, criterion='entropy')
dt_clf.fit(X,y)

plot_decision_boundary(dt_clf, axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

在这里插入图片描述
在这里插入图片描述
问题:怎么构建决策树?每个节点在哪个维度做划分?我们的数据可能有成百上千个维度。
某个维度在哪个值上做划分呢?
我们可以用信息熵来处理

信息熵

在这里插入图片描述
熵在信息论中代表: 随机变量不确定度的度量
熵越大,数据的不确定性越高
熵越小,数据的不确定性越低
信息熵的计算公式:
H = − ∑ i = 1 k p i l o g ( p i ) H = - \sum_{i=1}^k p_i log(p_i) H=i=1kpilog(pi)

p i p_i pi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值