educoder 数据挖掘算法原理与实践：决策树

最新推荐文章于 2024-05-07 17:32:29 发布

木右加木

最新推荐文章于 2024-05-07 17:32:29 发布

阅读量4.6k

点赞数 10

分类专栏： educoder 文章标签：决策树算法数据挖掘

本文链接：https://blog.csdn.net/VDingLinlin/article/details/121337778

版权

第1关：决策树算法思想

1 AB
2 B

第2关：决策树算法原理

import numpy as np


def calcInfoGain(feature, label, index):
    '''
    计算信息增益
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益，类型float
    '''

    #*********** Begin ***********#

    # 计算熵
    def calcInfoEntropy(feature, label):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :return:信息熵，类型float
        '''

        label_set = set(label)
        result = 0
        for l in label_set:
            count = 0
            for j in range(len(label)):
                if label[j] == l:
                    count += 1
            # 计算标签在数据集中出现的概率
            p = count / len(label)
            # 计算熵
            result -= p * np.log2(p)
        return result

    # 计算条件熵
    def calcHDA(feature, label, index, value):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :param index:需要使用的特征列索引，类型为int
        :param value:index所表示的特征列中需要考察的特征值，类型为int
        :return:信息熵，类型float
        '''
        count = 0
        # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
        sub_feature = []
        sub_label = []
        for i in range(len(feature)):
            if feature[i][index] == value:
                count += 1
                sub_feature.append(feature[i])

最低0.47元/天解锁文章

木右加木

关注

10
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
educoder 数据挖掘算法原理与实践：决策树

第1关：决策树算法思想1 AB2 B第2关：决策树算法原理import numpy as npdef calcInfoGain(feature, label, index): ''' 计算信息增益 :param feature:测试用例中字典里的feature，类型为ndarray :param label:测试用例中字典里的label，类型为ndarray :param index:测试用例中字典里的index，即feature部分特征列的索引。该索
复制链接

扫一扫

专栏目录