统计学习方法第五章习题答案_统计学习方法第五章习题答案-CSDN博客

本文链接：https://blog.csdn.net/qq_41562704/article/details/98590728

本文深入探讨决策树算法，包括ID3、C4.5和CART算法的原理及应用，通过实例讲解如何构建决策树，并提供Python代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

习题5.1

题目：根据表5.1所给的训练数据集，利用信息增益比（C4.5算法）生成决策树.
贷款申请样本数据表
答：
先计算每个特征的信息增益比，信息增益比 $g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}$ 。其中D关于特征A的熵 $H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\log_{2}\frac{|D_{i}|}{|D|}$ （n为A特征的取值个数），信息增益 $g (D, A) = H (D) - H (D ∣ A)$
分别以 $A_{1},A_{2},A_{3},A_{4}$ 表示年龄、有工作、有自己的房子和信贷情况4个特征。
经验熵 $H_{A}(D)$ ：
$H_{A_{1}}(D)=-\frac{5}{15}\log_{2}\frac{5}{15}-\frac{5}{15}\log_{2}\frac{5}{15}-\frac{5}{15}\log_{2}\frac{5}{15}=1.584$
$H_{A_{2}}(D)=-\frac{5}{15}\log_{2}\frac{5}{15}-\frac{10}{15}\log_{2}\frac{10}{15}=0.918$
$H_{A_{3}}(D)=-\frac{9}{15}\log_{2}\frac{9}{15}-\frac{6}{15}\log_{2}\frac{6}{15}=0.971$
$H_{A_{4}}(D)=-\frac{4}{15}\log_{2}\frac{4}{15}-\frac{6}{15}\log_{2}\frac{6}{15}-\frac{5}{15}\log_{2}\frac{5}{15}=1.566$
例题5.2已经计算了各个特征的信息增益：
$g(D,A_{1})=0.083$
$g(D,A_{2})=0.324$
$g(D,A_{3})=0.420$
$g(D,A_{4})=0.363$
得信息增益比：
$g_{R}(D,A_{1})=0.052$
$g_{R}(D,A_{2})=0.353$
$g_{R}(D,A_{3})=0.433$
$g_{R}(D,A_{4})=0.232$
选择信息增益比最大的特征 $A_{3}$ 作为根节点特征，将训练集分为两个子集 $D_{1}(A_{3}='是')$ 和 $D_{2}(A_{3}='否')$ ，由于 $D_{1}$ 中只有同一类样本点，所以它是一个叶节点，标记为“是”
对 $D_{2}$ 从 $A_{1},A_{2},A_{4}$ 中选择新的特征， $D_{2}$ 中的元素有：
在这里插入图片描述
重新计算各个特征的信息增益比
经验熵：
$H(D_{2})=-\frac{3}{9}\log_{2}\frac{3}{9}-\frac{6}{9}\log_{2}\frac{6}{9}=0.918$
信息增益：
$\begin{aligned}g(D_{2},A_{1})&=H(D_{2})-[\frac{4}{9}H(D_{21})+\frac{2}{9}H(D_{22})+\frac{3}{9}H(D_{23})] \\&=0.918-[\frac{4}{9}(-\frac{1}{4}\log_{2}\frac{1}{4}-\frac{3}{4}\log_{2}\frac{3}{4})+\frac{2}{9}(-\frac{2}{2}\log_{2}\frac{2}{2})+\frac{3}{9}(-\frac{2}{3}\log_{2}\frac{2}{3}-\frac{1}{3}\log_{2}\frac{1}{3})]\\&=0.918-0.667\\&=0.251\end{aligned}$
其中 $D_{21},D_{22},D_{23}$ 分别表示 $D_{2}$ 中 $A_{1}$ 取值为青年，中年，老年的样本子集。
$\begin{aligned}g(D_{2},A_{2})&=H(D_{2})-[\frac{6}{9}H(D_{21})+\frac{3}{9}H(D_{22})]\\&=0.918-[\frac{6}{9}(-\frac{6}{6}\log_{2}\frac{6}{6})+\frac{3}{9}(-\frac{3}{3}\log_{2}\frac{3}{3})]\\&=0.918\end{aligned}$
其中 $D_{21},D_{22}$ 分别表示 $D_{2}$ 中 $A_{2}$ 取值为否，是的样本子集。
$\begin{aligned}g(D_{2},A_{4})&=H(D_{2})-[\frac{4}{9}H(D_{21})+\frac{4}{9}H(D_{22})+\frac{1}{9}H(D_{23})]\\&=0.918-[\frac{4}{9}(-\frac{4}{4}\log_{2}\frac{4}{4})+\frac{4}{9}(-\frac{2}{4}\log_{2}\frac{2}{4}-\frac{2}{4}\log_{2}\frac{2}{4})+\frac{1}{9}(-\frac{1}{1}\log_{2}\frac{1}{1})]\\&=0.918-0.444\\&=0.474\end{aligned}$
其中 $D_{21},D_{22},D_{23}$ 分别表示 $D_{2}$ 中 $A_{4}$ 取值为一般，好，非常好的样本子集。
信息增益比：
$\begin{aligned}g_{R}(D_{2},A_{1})&=\frac{g(D_{2},A_{1})}{H_{A_{1}}(D_{2})}\\&=\frac{0.251}{-\frac{4}{9}\log_{2}\frac{4}{9}-\frac{2}{9}\log_{2}\frac{2}{9}-\frac{3}{9}\log_{2}\frac{3}{9}}\\&=\frac{0.251}{1.530}\\&=0.164\end{aligned}$
$\begin{aligned}g_{R}(D_{2},A_{2})&=\frac{g(D_{2},A_{2})}{H_{A_{2}}(D_{2})}\\&=\frac{0.918}{-\frac{6}{9}\log_{2}\frac{6}{9}-\frac{3}{9}\log_{2}\frac{3}{9}}\\&=\frac{0.918}{0.918}\\&=1\end{aligned}$
$\begin{aligned}g_{R}(D_{2},A_{4})&=\frac{g(D_{2},A_{4})}{H_{A_{4}}(D_{2})}\\&=\frac{0.474}{-\frac{4}{9}\log_{2}\frac{4}{9}-\frac{4}{9}\log_{2}\frac{4}{9}-\frac{1}{9}\log_{2}\frac{1}{9}}\\&=\frac{0.474}{1.392}\\&=0.340\end{aligned}$
选择信息增益比最大的特征 $A_{2}$ 作为节点的特征，从这一结点引出两个子结点：一个对应“是”（有工作）的子结点，包含3个样本，它们属于同一类，所以这是一个叶结点，类标记为“是”；另一个是对应“否”（无工作）的子结点，包含6个样本，它们也属于同一类，所以这也是一个叶结点，类标记为“否”。
最终的决策树如图：
在这里插入图片描述
贴个代码验算下：
首先是书中例题5.3用ID3算法生成决策树

import numpy as np
from math import log

def loadData():
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = [u'年龄', u'有工作', u'有自己的房子', u'信贷情况', u'类别']
    # 返回数据集和每个维度的名称
    return datasets, labels

def calc_entropy(datasets):
    label_count = {}
    for dataset in datasets:
        label =  dataset[-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    entropy = -sum([(p/len(datasets))*log(p/len(datasets),2) for p in label_count.values()])
    return entropy

def calc_conditional_entropy(datasets, index = 0):
    feature_data = {}
    for dataset in datasets:
        feature = dataset[index]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)
    condEntropy = sum([(len(p)/len(datasets))*calc_entropy(p) for p in feature_data.values()])
    return condEntropy

def info_gain(entropy, condEntropy):
    return entropy - condEntropy

def info_gain_train_childTree(datasets, labels):
    entropy = calc_entropy(datasets)
    features = []
    for index in range(len(datasets[0])-1):
        condEntropy = calc_conditional_entropy(datasets, index)
        c_info_gain = info_gain(entropy, condEntropy)
        features.append((index, c_info_gain))
        print("特征({})的信息增益为{:.3f}".format(labels[index], c_info_gain))
    best_feature = max(features, key=lambda x: x[-1])
    print("特征({})的信息增益最大，选择为当前节点特征".format(labels[best_feature[0]]))
    return best_feature

def info_gain_train(datasets, labels):
    label_count = {}
    for dataset in datasets:
        label = dataset[-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    if len(label_count.keys()) == 1:
        key = list(label_count.keys())[0]
        print("此时类别均为{}".format(key))
        return
    best_feature = info_gain_train_childTree(datasets, labels)

    feature_data = {}
    for dataset in datasets:
        feature = dataset[best_feature[0]]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)

    for data in zip(feature_data.keys(), feature_data.values()):
        print("当{}为{}".format(labels[best_feature[0]], data[0]))
        info_gain_train(data[1], labels)


if __name__ == "__main__":
    datasets, labels = loadData()
    info_gain_train(datasets, labels)

运行结果

特征(年龄)的信息增益为0.083
特征(有工作)的信息增益为0.324
特征(有自己的房子)的信息增益为0.420
特征(信贷情况)的信息增益为0.363
特征(有自己的房子)的信息增益最大，选择为当前节点特征
当有自己的房子为否
特征(年龄)的信息增益为0.252
特征(有工作)的信息增益为0.918
特征(有自己的房子)的信息增益为0.000
特征(信贷情况)的信息增益为0.474
特征(有工作)的信息增益最大，选择为当前节点特征
当有工作为否
此时类别均为否
当有工作为是
此时类别均为是
当有自己的房子为是
此时类别均为是

C4.5算法

import numpy as np
from math import log

def loadData():
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = [u'年龄', u'有工作', u'有自己的房子', u'信贷情况', u'类别']
    # 返回数据集和每个维度的名称
    return datasets, labels

def calc_entropy(datasets, index=-1):
    label_count = {}
    for dataset in datasets:
        label =  dataset[index]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    entropy = -sum([(p/len(datasets))*log(p/len(datasets),2) for p in label_count.values()])
    return entropy

def calc_conditional_entropy(datasets, index = 0):
    feature_data = {}
    for dataset in datasets:
        feature = dataset[index]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)
    condEntropy = sum([(len(p)/len(datasets))*calc_entropy(p) for p in feature_data.values()])
    return condEntropy

def info_gain(entropy, condEntropy):
    return entropy - condEntropy

def info_gain_ratio(c_info_gain, c_entropy):
    return 0 if c_info_gain == 0 else c_info_gain/c_entropy

def info_gain_train_childTree(datasets, labels):
    entropy = calc_entropy(datasets)
    features = []
    for index in range(len(datasets[0])-1):
        condEntropy = calc_conditional_entropy(datasets, index)
        c_info_gain = info_gain(entropy, condEntropy)
        c_entropy = calc_entropy(datasets, index)
        c_info_gain_ratio = info_gain_ratio(c_info_gain, c_entropy)
        features.append((index, c_info_gain_ratio))
        print("特征({})的信息增益比为{:.3f}".format(labels[index], c_info_gain_ratio))
    best_feature = max(features, key=lambda x: x[-1])
    print("特征({})的信息增益比最大，选择为当前节点特征".format(labels[best_feature[0]]))
    return best_feature

def info_gain_train(datasets, labels):
    label_count = {}
    for dataset in datasets:
        label = dataset[-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    if len(label_count.keys()) == 1:
        key = list(label_count.keys())[0]
        print("此时类别均为{}".format(key))
        return
    best_feature = info_gain_train_childTree(datasets, labels)

    feature_data = {}
    for dataset in datasets:
        feature = dataset[best_feature[0]]
        if feature not in feature_data:
            feature_data[feature] = []
        feature_data[feature].append(dataset)

    for data in zip(feature_data.keys(), feature_data.values()):
        print("当{}为{}".format(labels[best_feature[0]], data[0]))
        info_gain_train(data[1], labels)


if __name__ == "__main__":
    datasets, labels = loadData()
    info_gain_train(datasets, labels)

运行结果

特征(年龄)的信息增益比为0.052
特征(有工作)的信息增益比为0.352
特征(有自己的房子)的信息增益比为0.433
特征(信贷情况)的信息增益比为0.232
特征(有自己的房子)的信息增益比最大，选择为当前节点特征
当有自己的房子为否
特征(年龄)的信息增益比为0.164
特征(有工作)的信息增益比为1.000
特征(有自己的房子)的信息增益比为0.000
特征(信贷情况)的信息增益比为0.340
特征(有工作)的信息增益比最大，选择为当前节点特征
当有工作为否
此时类别均为否
当有工作为是
此时类别均为是
当有自己的房子为是
此时类别均为是

习题5.2

题目：已知下表所示的训练数据，试用平方误差损失准则生成一个二叉回归树.

$x_{i}$	1	2	3	4	5	6	7	8	9	10
$y_{i}$	4.50	4.75	4.91	5.34	5.80	7.05	7.70	8.23	8.70	9.00

回归树的建立算法：
在这里插入图片描述
本题的计算量有点大，直接用Python实现，具体代码和结果如下。

#环境Python3.7
#-*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt

#节点定义
class TreeNode(object):
    def __init__(self, tempR, tempc):
        self.R = tempR
        self.c = tempc
        self.left = None
        self.right = None


y = np.array([4.5, 4.75, 4.91, 5.34, 5.8, 7.05, 7.9, 8.23, 8.7, 9]) #y的值

#CART算法建立回归树
def CART(start, end):
    # 切点s的选择表示R1为x值小于等于s的点，R2为大于s的点
    if(end - start >= 1):
        result = []
        for s in range(start+1, end+1):#s在(start, end]之间取值
            y1 = y[start : s] #y1取索引为[start, s]之间的值
            y2 = y[s: end+1] #y2 取索引为[s+1, end]之间的值
            result.append((y1.std()**2)*y1.size + (y2.std()**2)*y2.size)
            #std即标准差函数，求标准差的时候默认除以元素的个数，因此平方后乘以元素个数才是要求的平方差
        index1 = result.index(min(result)) + start#取平方差误差最小的索引值
        root = TreeNode(y[start:end+1], min(result))
        #索引值为0-9，x值为1-10，即s的值比求的索引值多1
        print("节点元素值为",y[start:end+1], "  s =",index1+1, "  最小平方误差为",min(result))#输出s值和最小平方误差
        root.left = CART(start, index1) #对列表的左侧生成左子树
        root.right = CART(index1+1, end) #对列表的右侧生成右子树
    else:
        root = None
    return root


if __name__ == "__main__":
    root = CART(0, 9)

运行结果：

节点元素值为 [4.5  4.75 4.91 5.34 5.8  7.05 7.9  8.23 8.7  9.  ]   s = 5   最小平方误差为 3.3587199999999986
节点元素值为 [4.5  4.75 4.91 5.34 5.8 ]   s = 3   最小平方误差为 0.1912
节点元素值为 [4.5  4.75 4.91]   s = 1   最小平方误差为 0.012800000000000023
节点元素值为 [4.75 4.91]   s = 2   最小平方误差为 0.0
节点元素值为 [5.34 5.8 ]   s = 4   最小平方误差为 0.0
节点元素值为 [7.05 7.9  8.23 8.7  9.  ]   s = 7   最小平方误差为 0.6625166666666665
节点元素值为 [7.05 7.9 ]   s = 6   最小平方误差为 0.0
节点元素值为 [8.23 8.7  9.  ]   s = 8   最小平方误差为 0.04500000000000021
节点元素值为 [8.7 9. ]   s = 9   最小平方误差为 0.0

原本是打算再用matplotlib可视化决策树，有、麻烦，后期有时间再优化一下。向大家说声抱歉。
另外简单说明一下计算的过程，以根节点为例，变换切分点 $s$ ，选择使得平方误差最小的切分点
$s = 1$ :
即 $y_{1} = [4.5], y_{2} = [4.75 ,4.91, 5.34, 5.8 , 7.05 ,7.9, 8.23, 8.7, 9.]$
此时有 $c_{1} = 4.5, c{2} = avg(y{2}) = 6.85$ ， $\sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}=22.45$
然后依次将 $s$ 从2取值到10，计算平方误差，选其中平方误差最小的s为根节点s，将元素分为左右子树后，再对左右子树进行相同的处理。

习题5.3

题目：证明 CART 剪枝算法中，当 $\alpha$ 确定时，存在唯一的最小子树 $T_{\alpha}$ 使损失函数 $C_{\alpha}(T)$ 最小
答：
（1）存在性
当 $\alpha$ 确定时，可以生成多种子树，每个子树对应一个损失函数，一定存在一个最小的损失函数。
（2）唯一性
假设损失函数为最小的损失函数有两个子树 $T_{\alpha}, T_{\beta}$ ，剪枝的本质是对每个节点依次向上递归，若减去该节点后的子树的损失函数更小，则进行剪枝，否则结束该节点的递归。
若子树的 $T_{\alpha}, T_{\beta}$ 某处不相同有两种情况
其一： $T_{\alpha}$ 某处节点剪枝后得到 $T_{\beta}$
在这里插入图片描述
这种情况即该处是否剪枝不影响最终的损失函数大小，此时虽然二者的损失函数一致，但是右侧的子树更小，即最小子树仍为1个。

其二：
在这里插入图片描述
此时不难得出，若 $T_{\alpha}$ 对2号节点进行剪枝，则 $T_{alpha}$ 的损失函数比原来小，所以最终结果也需要对2号节点进行剪枝，同理若 $T_{\beta}$ 对3号节点进行剪枝，则 $T_{beta}$ 的损失函数比原来小，所以最终结果也需要对3号节点进行剪枝，因此 $T_{\alpha}, T_{\beta}$ 均不是最小子树。

习题5.4

题目：证明 CART 剪枝算法中求出的子树序列 $\left\{T_{0}, T_{1}, \cdots, T_{n}\right\}$ 分别是区间 $\alpha \in\left[\alpha_{i}, \alpha_{i+1}\right)$ 的最优子树 $T_{\alpha}$ ，这里 $\cdots, n, \quad 0=\alpha_{0}<\alpha_{1}<\cdots<\alpha_{n}<+\infty$
在子树序列中，每棵子树 $\left\{T_{0}, T_{1}, \cdots, T_{n}\right\}$ 都对应于一个参数 $\alpha_0,\alpha_1,\alpha_2...\alpha_n$ 。所以，当最优子树 $T_k$ 确定时，对应的 $\alpha_k$ 也确定了，即得到最优决策树 $T_\alpha$ 。