超级决策树

最新推荐文章于 2024-10-10 22:59:02 发布

阅读量595

点赞数 22

文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/2202_76097539/article/details/137838122

版权

本文介绍了信息增益、增益率和基尼指数用于衡量数据集纯度的方法，通过西瓜数据集实例展示了如何计算这些指标。信息增益适用于取值较多的特征，而基尼指数在小数据集和不均匀分布时表现更好，适用于分类和回归问题的选择

摘要由CSDN通过智能技术生成

一、信息增益

信息熵： $Ent(D)=- \sum_{k=1}^{n}p_{k}log_{2}p_{k}$ （样本集D中第k类样本所占比例为 $p_{k}$ ） Ent(D)值越小，则D的纯度越高

信息增益： $Gain(D,a)=Ent(D)-\sum_{1}^{m}\frac{D_{m}}{D}Ent(D_{m})$ 信息增益越大，则利用属性a来划分所获得的‘纯度提升’越大

二、增益率

增益率： $Gainratio(D,a)=Gain(D,a)/IV(a)$

$IV(a)=-\sum_{1}^{v}$ $IV(a)=-\sum_{1}^{v}\frac{D_{v}}{D}log_{2}\frac{D_{v}}{D}$ 属性a的可能取值数目越多，IV(a)的值通常越大

增益率对可取数目较少的属性有所偏好，不直接选择增益率最大的，而是先从候选划分属性中找出信息增益高于平均水平的属性

三、基尼指数

基尼值： $Gini(D)= \sum_{1}^{k}\sum_{k'}p_{k}p_{k'}=1-\sum_{1}^{k}p_{k}^{2}$ Gini(D)越小，则数据集D的纯度越高

属性a的基尼指数： $Gini(D,a)=\sum_{1}^{v}\frac{D_{v}}{D}Gini(D_{v})$

四、西瓜例子

以西瓜数据集为例

编号色泽根蒂敲声纹理脐部触感好瓜
1 青绿蜷缩浊响清晰凹陷硬滑是
2 乌黑蜷缩沉闷清晰凹陷硬滑是
3 乌黑蜷缩浊响清晰凹陷硬滑是
4 青绿蜷缩沉闷清晰凹陷硬滑是
5 浅白蜷缩浊响清晰凹陷硬滑是
6 青绿稍蜷浊响清晰稍凹软粘是
7 乌黑稍蜷浊响稍糊稍凹软粘是
8 乌黑稍蜷浊响清晰稍凹硬滑是
9 乌黑稍蜷沉闷稍糊稍凹硬滑否
10 青绿硬挺清脆清晰平坦软粘否 11 浅白硬挺清脆模糊平坦硬滑否
12 浅白蜷缩浊响模糊平坦软粘否
13 青绿稍蜷浊响稍糊凹陷硬滑否
14 浅白稍蜷沉闷稍糊凹陷硬滑否
15 乌黑稍蜷浊响清晰稍凹软粘否
16 浅白蜷缩浊响模糊平坦硬滑否
17 青绿蜷缩沉闷稍糊稍凹硬滑否

import numpy as np
import pandas as pd
import math
data = pd.read_csv('watermalon.csv')

熵的计算函数：

def info(x,y):
    if x != y and x != 0:
        # 计算当前情况的熵
        return -(x/y)*math.log2(x/y) - ((y-x)/y)*math.log2((y-x)/y)
    if x == y or x == 0:
        # 纯度最大，熵值为0
        return 0

信息增益计算：（选择信息增益大的作为分类属性）

#根蒂的信息增益
gendi_entropy = (8/17)*info(5,8)+(7/17)*info(3,7)+(2/17)*info(0,2)
gain_col = info_D - gendi_entropy
#敲声的信息增益
qiaosheng_entropy = (10/17)*info(6,10)+(5/17)*info(2,5)+(2/17)*info(0,2)
info_gain = info_D - qiaosheng_entropy
#纹理的信息增益
wenli_entropy = (9/17)*info(7,9)+(5/17)*info(1,5)+(3/17)*info(0,3)
info_gain = info_D - wenli_entropy

根蒂的信息增益：0.142674959566 敲声的信息增益：0.140781433614 纹理的信息增益：0.380591897368

基尼指数计算：（选择基尼指数小的作为分类属性）

def info(x,y):
    if x != y and x != 0:
        return 1 - (x/y)*(x/y) - ((y-x)/y)*((y-x)/y)
    if x == y or x == 0:
        return 0

gendi_Gini=(8/17)*gini(5,8)+(7/17)*gini(3,7)+(2/17)*gini(0,2)

qiaosheng_Gini=(10/17)*gini(6,10)+(5/17)*gini(2,5)+(2/17)*gini(0,2)

wenli_Gini = (9/17)*gini(7,9)+(5/17)*gini(1,5)+(3/17)*gini(0,3)

根蒂的基尼指数：0.42226891 敲声的基尼指数：0.42352941 纹理的基尼指数：0.27712419