信息增益代码片段以及再次理解信息增益过程

TomcatLikeYou

已于 2023-08-23 16:29:42 修改

阅读量769

点赞数

分类专栏：常见决策树算法逻辑理解以及代码实现文章标签：决策树算法机器学习

于 2023-08-10 13:11:02 首次发布

本文链接：https://blog.csdn.net/qq_37293230/article/details/132191310

版权

常见决策树算法逻辑理解以及代码实现专栏收录该内容

7 篇文章 0 订阅

订阅专栏

西瓜数据集D如下:

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

即集合D为分类问题,分类瓜的好坏是一个二分类问题,故|y| =2 ,故只存在p1,p2

信息熵为衡量信息混乱程度的量
记好瓜比例为p1,坏瓜比例为p2

$1.若全是好瓜,则p_1=1,p_2=0 \\ \begin{align} Ent(D) &= -\sum\limits _{k=1}^{|y|}p_klog_2p_k \\ &= -(p_1log_2p_1 + p_2log_2p_2 ) \\ &=1\cdot log_2\cdot 1 + 0\cdot log_2\cdot 0 \\ &=0\\ \end{align}$
$2.若全是坏瓜,则p_1=0,p_2=1 \\ \begin{align} Ent(D)&= -\sum\limits _{k=1}^{|y|}p_klog_2p_k \\ &= -(p_1log_2p_1 + p_2log_2p_2 ) \\ &=0\cdot log_2\cdot 0 + 1\cdot log_2\cdot 1 \\ &=0\\ \end{align}\\ 则完全不混乱为全是好瓜或全是坏瓜,Ent(D) = 0\\$
$3.若好坏瓜个一半,则p_1=\frac12,p_2=\frac12 \\ \begin{align} Ent(D) &= -\sum\limits _{k=1}^{|y|}p_klog_2p_k \\ &= -(p_1log_2p_1 + p_2log_2p_2 ) \\ &=-(\frac12\cdot log_2\cdot \frac12 + \frac12\cdot log_2\cdot \frac12 )\\ &=1\\ \end{align}\\ 则最混乱为Ent(D) = 1$

注:在二分类问题中,信息熵最大为1. 如多分类(y分类)问题,则最大值为:
$log_2|y|$
例如3分类问题,则信息熵最大为:
$log_23 \approx 1.58$

当前样本集合D中第k类样本所占比例为pk(k=1,2,3,…,|y|),则D的信息熵为:

$-\sum\limits _{k=1}^{|y|}p_klog_2p_k$

信息增益为:

$\sum\limits _{v=1}^V \frac{|Dv|}{|D|}Ent(D^v)$

import math
D = [
['青绿','蜷缩','浊响','清晰','凹陷','硬滑','是'],
['乌黑','蜷缩','沉闷','清晰','凹陷','硬滑','是'],
['乌黑','蜷缩','浊响','清晰','凹陷','硬滑','是'],
['青绿','蜷缩','沉闷','清晰','凹陷','硬滑','是'],
['浅白','蜷缩','浊响','清晰','凹陷','硬滑','是'],
['青绿','稍蜷','浊响','清晰','稍凹','软粘','是'],
['乌黑','稍蜷','浊响','稍糊','稍凹','软粘','是'],
['乌黑','稍蜷','浊响','清晰','稍凹','硬滑','是'],
['乌黑','稍蜷','沉闷','稍糊','稍凹','硬滑','否'],
['青绿','硬挺','清脆','清晰','平坦','软粘','否'],
['浅白','硬挺','清脆','模糊','平坦','硬滑','否'],
['浅白','蜷缩','浊响','模糊','平坦','软粘','否'],
['青绿','稍蜷','浊响','稍糊','凹陷','硬滑','否'],
['浅白','稍蜷','沉闷','稍糊','凹陷','硬滑','否'],
['乌黑','稍蜷','浊响','清晰','稍凹','软粘','否'],
['浅白','蜷缩','浊响','模糊','平坦','硬滑','否'],
['青绿','蜷缩','沉闷','稍糊','稍凹','硬滑','否']
]
A = ['色泽','根蒂','敲声','纹理','脐部','触感','好瓜']


# 当前样本集合D中第k类样本所占比例为pk(k=1,2,3,…,|y|)
# 计算A的信息熵,以数据最后一列为分类
def getEnt(D):
    # 获取一个类型k->出现次数的map
    kMap = dict()
    for dLine in D:
        # 获取分类值k
        k = dLine[len(dLine) - 1]
        # 获取当前k出现的次数
        kNum = kMap.get(k)
        if  kNum is None:
            kMap[k] = 1
        else:
            kMap[k] = kNum + 1
    # 遍历map
    dLen = len(D)
    rs = 0
    for kk in kMap:
        pk = kMap[kk]/dLen
        rs = rs + pk * math.log2(pk)
    return -rs

# 求信息增益,aIndex为属性列号
def getGain(D,aIndex):
    dMap = dict()
    for dLine in D:
        # 获取属性
        k = dLine[aIndex]
        # 属性所属的数组
        dChildren = dMap.get(k)
        if  dChildren is None:
            dChildren = []
            dMap[k] = dChildren
        dChildren.append(dLine)
    rs = 0    
    for key in dMap:
        dChildren = dMap[key]
        entx = getEnt(dChildren)
        r = len(dChildren)/len(D) * entx
        rs = rs + r
    return getEnt(D) - rs

# 求信息增益最大的属性列号
def getMaxtGainIndex(D):
    i = 0
    nowMaxIndex = 0
    nowMaxGain = 0
    while i < len(D[0]) - 1:
        gainI = getGain(D,i)
        print("第:" ,i , "列Gain为:" , gainI)
        if gainI > nowMaxGain:
            nowMaxGain = gainI
            nowMaxIndex = i
        i += 1
    return nowMaxIndex