python 信息熵、条件熵、信息增益、信息增益率、基尼系数

数据分析小鹏友

已于 2024-06-19 12:16:00 修改

阅读量6.5k

点赞数 8

文章标签： python 概率论机器学习数据分析

于 2022-03-11 15:01:56 首次发布

本文链接：https://blog.csdn.net/small__roc/article/details/123424806

版权

文章目录

一、熵（Entropy）
二、条件熵（Conditional Entropy）
三、信息增益（Information Gain）
- 3.1 定义
- 3.2 计算案例
四、信息增益率（Information Gain Ratio, IGR）
五、基尼系数（Gini coefficient）
- 5.1 定义
- 5.2 代码实现

一、熵（Entropy）

1.1 概念

熵，在信息论中是用来刻画信息混乱程度的一种度量。
最早源于热力学，后应广泛用于物理、化学、信息论等领域。1850年，德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间中分布的均匀程度。1948年，Shannon在Bell System Technical Journal上发表文章“A Mathematical Theory of Communication”，将信息熵的概念引入信息论中。本文所说的熵就是Shannon熵，即信息熵，解决了对信息的量化度量问题。

1.2 定义

$-\displaystyle \sum_{i=1}^{n} p_i logp_i$
其中，

n 代表X的n种不同的离散取值；
$p_i$ 代表了集合D取值为i的概率（比例）；
log 为以2或者e为底的对数；
从定义中可以看出变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

1.3 案例和代码

import math
from collections import Counter

def Entropy(DataList):
    '''
        计算随机变量 DataList 的熵
    '''
    counts = len(DataList)      # 总数量
    counter = Counter(DataList) # 每个变量出现的次数
    prob = {i[0]:i[1]/counts for i in counter.items()}      # 计算每个变量出现的比例 p
    H = - sum([i[1]*math.log2(i[1]) for i in prob.items()]) # 计算熵
    
    print("总数量：",counts)
    print("每个变量出现的次数：",counter)
    print("每个变量出现的比例：",prob)
    print("熵：",H)
    
    return H

if __name__ == "__main__":
    data_list_1 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 1, 2, 3, 4, 5 ]
    data_list_2 = [1,1,1,1,2,2,2,2]
    data_list_3 = [1,1,1,1,1,1,1,2]
    data_list_4 = [1,2,2,2,2,2,2,2]
    data_list_5 = [1,9,9,9,9,9,9,9]

    print("----------数据集1")
    HX1 = Entropy(data_list_1)
    print("----------数据集2")
    HX2 = Entropy(data_list_2)
    print("----------数据集3")
    HX3 = Entropy(data_list_3)
    print("----------数据集4")
    HX4 = Entropy(data_list_4)
    print("----------数据集5")
    HX5 = Entropy(data_list_5)

在这里插入图片描述
可以看出:

数据集1熵值大，说明1信息更混乱;
数据集2熵值为1.0，说明各类别占比均等时，熵值会等于1；
数据集3、4、5的熵值一样，说明信息熵只依赖出现的概率。

二、条件熵（Conditional Entropy）

2.1 概念

条件熵（Conditional Entropy）是在已知某一特征的条件下，度量目标变量的不确定性。它用于衡量在给定特征的信息后，目标变量的信息熵的期望值。条件熵是信息论中的重要概念，在构建决策树时，用于计算信息增益，从而帮助选择最佳分裂特征。

2.2 定义

定义在给定特征 A 的条件下，目标变量 Y 的信息熵为条件熵 $H (Y ∣ A)$ ：
$H(Y|A)=\sum_{v\in Values(A)} \dfrac{|D_{v}|}{|D|}H(D_{v})$
其中：

$Va l u es (A)$ 是特征 $A$ 的所有可能取值。
$D_{v}$ 是特征 A 取值为 $v$ 的子集。
$\dfrac{|D_{v}|}{|D|}$ 是子集 $D_{v}$ 在数据集 D中的权重。
$H(D_{v})$ 是子集 $D_{v}$ 的信息熵。

2.3 计算案例

假设我们有一个数据集D，其中包含两个类别（正类和负类）和一个特征X：

A	Y
A1	正类
A1	正类
A1	正类
A1	负类
A2	正类
A2	正类
A2	负类
A2	负类
A2	正类
A2	负类

步骤 1：计算整个数据集D的信息熵 $H (D)$
步骤 2：计算算特征X的条件熵

假设特征 AAA 有两个取值$ {A1, A2}$，我们需要计算每个子集的熵并加权平均：

子集 $D_{A1}$ ，即 $A=A_{1}$ 条件下的数据集、熵为:

A	Y
A1	正类
A1	正类
A1	正类
A1	负类

在这里插入图片描述
子集 $D_{A2}$ ，即 $A=A_{2}$ 条件下的数据集、熵为:

A	Y
A2	正类
A2	正类
A2	负类
A2	负类
A2	正类
A2	负类

在这里插入图片描述

步骤 3：计算条件熵 $H (Y ∣ A)$
条件熵的意义

条件熵 $H (Y ∣ A)$ 表示在知道特征 A的情况下，目标变量 Y的不确定性。条件熵越小，说明特征 A 对目标变量 Y的解释能力越强。因此，在构建决策树时，我们选择条件熵最小的特征进行分裂，从而最大化信息增益。

2.4 代码实现

import math
import pandas as pd
from collections import Counter

def Entropy(DataList):
    '''
        计算随机变量的熵
    '''
    counts = len(DataList)      # 总数量
    counter = Counter(DataList) # 每个变量出现的次数
    prob = {i[0]:i[1]/counts for i in counter.items()}      # 计算每个变量的 p
    H = - sum([i[1]*math.log2(i[1]) for i in prob.items()]) # 计算熵
    
    return H

if __name__ == "__main__":
    # 数据
    data = {
        'A': ['A1', 'A1', 'A1', 'A1', 'A2', 'A2', 'A2', 'A2', 'A2', 'A2'],
        'target': ['正类', '正类', '正类', '负类', '正类', '正类', '负类', '负类', '正类', '负类']
    }
    # 创建 DataFrame
    df = pd.DataFrame(data)
    
    X = df['A']
    Y = df['target']
    
    XY = list(zip(X,Y))
    HX = Entropy(X)   # 随机变量 X 的熵
    HXY = Entropy(XY) # 联合熵 XY
    HY_X = HXY - HX   # 条件熵  Y｜X
    
    print("条件熵：",HY_X)

三、信息增益（Information Gain）

3.1 定义

定义为数据集 D 在特征 A上的熵减少量：
$G ain (D, A) = H (D) - H (D ∣ A)$
其中：

$H (D)$ 为数据集D的熵（即目标变量Y的熵）；
$H (D ∣ A)$ 为在特征A条件下，目标变量Y的条件熵

$G ain (D, A)$ 值越大，说明数据集 D 在特征 A上的熵减少量越大，进一步说明特征A对于数据集D的重要性越高。

所以，在构建决策树时，选择信息增益最大的特征作为分裂特征。

3.2 计算案例

继续上文条件熵示例。

数据集 D的信息熵 $H (D) \approx 0.971$ ，特征 A 的条件熵 $H (D ∣ A) \approx 0.924$ ，则信息增益计算如下：

$G ain (D, A) = 0.971 - 0.924 \approx 0.047$

四、信息增益率（Information Gain Ratio, IGR）

4.1 定义

信息增益虽然直观，但在处理具有许多取值的特征时，会倾向于选择取值多的特征，因为它们通常会带来较大的信息增益。为了避免这种偏差，引入了信息增益率。
定义如下：
$Gain\_ratio(D,A) = \dfrac{Gain(D,A)}{H(A)}$
其中， $G ain (D, A)$ 为特征A在数据集D下的信息增益；

$H (A)$ 为特征A的熵值.

4.2 计算案例

继续上文条件熵示例。

数据集 D的信息熵 $H (D) \approx 0.971$ ，特征 A 的条件熵 $H (D ∣ A) \approx 0.924$ ，信息增益 $G ain (D, A) = 0.971 - 0.924 \approx 0.047$ ，信息增益率
$Gain\_ratio(D,A) = \dfrac{Gain(D,A)}{H(A)} = \dfrac{0.047}{0.971}$

4.3 总结

信息增益：度量某个特征对结果分类的不确定性减少的程度。
信息增益率：通过规范化信息增益来减轻对取值多的特征的偏好，选择信息增益率最高的特征来进行决策树的划分。

在实际应用中，决策树算法（如 C4.5）使用信息增益率来选择最优的分割特征，避免信息增益在处理取值较多特征时的偏差问题。

五、基尼系数（Gini coefficient）

Gini 系数（Gini coefficient），也称为基尼系数或基尼指数，是衡量不平等或分布不均衡的一种常用方法。在决策树中，Gini 系数常被用来衡量节点的不纯度，帮助选择最佳的分裂点。

5.1 定义

对于一个包含多个类别的数据集，假设有 $K$ 个类别，记为$ {1,2,…,K}$。设 $p_{i}$ 表示类别 i在数据集中的比例（即频率），则 Gini 系数 $G ini (p)$ 定义如下：
$Gini(p)=1-\sum_{i=1}^{K}p_{i}^{2}$
其中， $p_{i}$ 是类别 i 的频率。Gini 系数的取值范围是 $0 \leq G ini (p) \leq 0.5$ ;

所有样本属于同一类别时，Gini 系数达到最小值 0，表示数据集的纯度最高；

样本均匀分布在各个类别时，Gini 系数达到最大值 0.5，表示数据集的纯度最低。

5.2 代码实现

def gini_index(arr):
    '''' 计算基尼系数 '''
    # 如果为空，返回0
    if len(arr) == 0:
        return 0
    
    # 计算每个类别的频率
    unique_values, counts = np.unique(arr, return_counts=True)
    prob = counts / len(arr)
    
    # 计算基尼指数
    gini = 1 - np.sum(prob ** 2)
    
    return gini

数据分析小鹏友

关注

8
点赞
踩
44

收藏

觉得还不错? 一键收藏
0
评论
python 信息熵、条件熵、信息增益、信息增益率、基尼系数

三、python 实现import mathfrom collections import Counterdef Entropy(DataList): ''' 计算随机变量的熵 ''' counts = len(DataList) # 总数量 counter = Counter(DataList) # 每个变量出现的次数 prob = {i[0]:i[1]/counts for i in counter.items()} ..
复制链接

扫一扫