educoder 决策树

第1关:什么是决策树

1.AB
2.B

第2关:信息熵与信息增益

import numpy as np


def calcInfoGain(feature, label, index):
    '''
    计算信息增益
    :param feature:测试用例中字典里的feature,类型为ndarray
    :param label:测试用例中字典里的label,类型为ndarray
    :param index:测试用例中字典里的index,即feature部分特征列的索引。该索引指的是feature中第几个特征,如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益,类型float
    '''

    #*********** Begin ***********#

    # 计算熵
    def calcInfoEntropy(feature, label):
        '''
        计算信息熵
        :param feature:数据集中的特征,类型为ndarray
        :param label:数据集中的标签,类型为ndarray
        :return:信息熵,类型float
        '''

        label_set = set(label)
        result = 0
        for l in label_set:
            count = 0
            for j in range(len(label)):
                if label[j] == l:
                    count += 1
            # 计算标签在数据集中出现的概率
            p = count / len(label)
            # 计算熵
            result -= p * np.log2(p)
        return result

    # 计算条件熵
    def calcHDA(feature, label, index, value):
        '''
        计算信息熵
        :param feature:数据集中的特征,类型为ndarray
        :param label:数据集中的标签,类型为ndarray
        :param index:需要使用的特征列索引,类型为int
        :param value:index所表示的特征列中需要考察的特征值,类型为int
        :return:信息熵,类型float
        '''
        count = 0
        # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
        sub_feature = []
        sub_label = []
        for i in range(len(feature)):
            if feature[i][index] == value:
                count += 1
                sub_feature.append(feature[i])
                sub_label.append(label[i])
        pHA = count / len(feature)
        e = calcInfoEntropy(sub_feature, sub_label)
        return pHA * e
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
由于ID3决策树是一种基于信息熵的算法,因此我们需要计算每个属性的信息熵和整个数据集的信息熵。具体步骤如下: 1. 计算整个数据集的信息熵 首先,我们需要计算整个数据集的信息熵。假设有m个类别,每个类别的概率为$p_i$,则整个数据集的信息熵为: $H=-\sum_{i=1}^mp_i\log_2p_i$ 2. 计算每个属性的信息熵 接下来,我们需要计算每个属性的信息熵。假设有n个属性,第i个属性有k个取值,第i个属性的第j个取值有m个样本,其中有$p_{ij}$个样本属于第j个类别,则第i个属性的信息熵为: $H_i=-\sum_{j=1}^k\frac{m_j}{m}\sum_{l=1}^mp_{ijl}\log_2p_{ijl}$ 3. 计算信息增益 在计算每个属性的信息熵后,我们可以通过计算信息增益来确定选择哪个属性作为当前节点的分裂属性。信息增益的计算公式为: $Gain(S,A)=H(S)-\sum_{v\in Val(A)}\frac{|S_v|}{|S|}H(S_v)$ 其中,$S$表示当前节点的样本集合,$A$表示当前节点可以选择的属性集合,$Val(A)$表示属性$A$的取值集合,$S_v$表示属性$A$等于$v$的样本集合。 4. 递归构建决策树 接下来,我们可以按照信息增益的大小选择当前节点的分裂属性,并根据分裂属性的取值将当前节点的样本集合分裂成多个子节点。我们可以递归地对每个子节点进行上述操作,直到所有样本都属于同一个类别或者没有可以分裂的属性为止。 5. 预测新样本的类别 当构建好决策树后,我们可以使用它来预测新样本的类别。具体步骤如下: (1)从根节点开始,根据当前节点的分裂属性,将新样本分裂到相应的子节点。 (2)如果当前节点是叶节点,则返回该节点的类别作为预测结果。 (3)否则,继续递归地对子节点进行上述操作,直到找到叶节点为止。 以上就是ID3决策树模型的matlab实现步骤。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值