【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

(转载请注明出处:http://blog.csdn.net/buptgshengod)

1.背景

          决策书算法是一种逼近离散数值的分类算法,思路比较简单,而且准确率较高。国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一。C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。

          算法的主要思想就是将数据集按照特征对目标指数的影响由高到低排列。行成一个二叉树序列,进行分类,如下图所示。

                                              

         现在的问题关键就是,当我们有很多特征值时,哪些特征值作为父类写在二叉树的上面的节点,哪下写在下面。我们可以直观的看出上面的特征值节点应该是对目标指数影响较大的一些特征值。那么如何来比较哪些特征值对目标指数影响较大呢。这里引出一个概念,就是信息熵。

        信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。说白了就是信息熵的值越大就表明这个信息集越混乱。

        信息熵的计算公式,H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)}(建议去wiki学习一下)

        这里我们通过计算目标指数的熵和特征值得熵的差,也就是熵的增益来确定哪些特征值对于目标指数的影响最大。

2.数据集


                    

3.代码

     (1)第一部分-计算熵

                       函数主要是找出有几种目标指数,根据他们出现的频率计算其信息熵。  
  1. def calcShannonEnt(dataSet):  
  2.     numEntries=len(dataSet)  
  3.       
  4.     labelCounts={}  
  5.   
  6.     for featVec in dataSet:  
  7.         currentLabel=featVec[-1]  
  8.          
  9.         if currentLabel not in labelCounts.keys():  
  10.             labelCounts[currentLabel]=0          
  11.         labelCounts[currentLabel]+=1  
  12.     shannonEnt=0.0  
  13.       
  14.     for key in labelCounts:  
  15.            
  16.          prob =float(labelCounts[key])/numEntries          
  17.          shannonEnt-=prob*math.log(prob,2)  
  18.   
  19.     return shannonEnt        
   

     (2)第二部分-分割数据

            因为要每个特征值都计算相应的信息熵,所以要对数据集分割,将所计算的特征值单独拿出来。
  1. def splitDataSet(dataSet, axis, value):  
  2.     retDataSet = []  
  3.     for featVec in dataSet:  
  4.         if featVec[axis] == value:  
  5.             reducedFeatVec = featVec[:axis]     #chop out axis used for splitting              
  6.             reducedFeatVec.extend(featVec[axis+1:])        
  7.             retDataSet.append(reducedFeatVec)            
  8.     return retDataSet

   (3)第三部分-找出信息熵增益最大的特征值

  1. def chooseBestFeatureToSplit(dataSet):  
  2.     numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels  
  3.     baseEntropy = calcShannonEnt(dataSet)  
  4.     bestInfoGain = 0.0; bestFeature = -1  
  5.     for i in range(numFeatures):        #iterate over all the features  
  6.         featList = [example[i] for example in dataSet]#create a list of all the examples of this feature  
  7.          
  8.         uniqueVals = set(featList)       #get a set of unique values  
  9.           
  10.         newEntropy = 0.0  
  11.         for value in uniqueVals:  
  12.             subDataSet = splitDataSet(dataSet, i, value)  
  13.             prob = len(subDataSet)/float(len(dataSet))  
  14.             newEntropy += prob * calcShannonEnt(subDataSet)       
  15.         infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy  
  16.           
  17.         if (infoGain > bestInfoGain):       #compare this to the best gain so far  
  18.             bestInfoGain = infoGain         #if better than current best, set to best  
  19.             bestFeature = i  
  20.     return bestFeature                      #returns an integer 

4.代码下载

      
    结果是输出0,也就是是否有喉结对性别影响最大。
基于信息熵进行划分选择的决策树算法是一种用于分类和回归分析的机器学习算法。该算法通过计算样本集中各个属性的熵,选择熵最小的属性作为节点进行划分,进而构建决策树Python编程语言提供了丰富的库和工具,可以方便地实现基于信息熵决策树算法。下面是一个示例代码: ```python import pandas as pd import numpy as np def calculate_entropy(labels): unique_labels = np.unique(labels) entropy = 0 total_samples = len(labels) for label in unique_labels: p_label = len(labels[labels == label]) / total_samples entropy += -p_label * np.log2(p_label) return entropy def calculate_information_gain(data, labels, attribute): unique_values = np.unique(data[attribute]) total_samples = len(labels) info_gain = calculate_entropy(labels) for value in unique_values: subset_labels = labels[data[attribute] == value] p_value = len(subset_labels) / total_samples info_gain -= p_value * calculate_entropy(subset_labels) return info_gain def choose_best_attribute(data, labels): attributes = data.columns best_attribute = '' max_info_gain = -np.inf for attribute in attributes: info_gain = calculate_information_gain(data, labels, attribute) if info_gain > max_info_gain: max_info_gain = info_gain best_attribute = attribute return best_attribute def create_decision_tree(data, labels): # 基准情况:如果所有实例都属于同一类别,则返回该类别 if len(np.unique(labels)) == 1: return labels[0] # 基准情况:如果没有属性可用于划分,则返回实例数量最多的类别 if len(data.columns) == 0: unique_labels, counts = np.unique(labels, return_counts=True) return unique_labels[np.argmax(counts)] best_attribute = choose_best_attribute(data, labels) tree = {best_attribute: {}} unique_values = np.unique(data[best_attribute]) for value in unique_values: subset_data = data[data[best_attribute] == value].drop(columns=best_attribute) subset_labels = labels[data[best_attribute] == value] if len(subset_labels) == 0: unique_labels, counts = np.unique(labels, return_counts=True) tree[best_attribute][value] = unique_labels[np.argmax(counts)] else: tree[best_attribute][value] = create_decision_tree(subset_data, subset_labels) return tree # 示例使用 data = pd.DataFrame({ 'Outlook': ['Sunny', 'Sunny', 'Overcast', 'Rain', 'Rain', 'Rain', 'Overcast', 'Sunny', 'Sunny', 'Rain', 'Sunny', 'Overcast', 'Overcast', 'Rain'], 'Temperature': ['Hot', 'Hot', 'Hot', 'Mild', 'Cool', 'Cool', 'Cool', 'Mild', 'Cool', 'Mild', 'Mild', 'Mild', 'Hot', 'Mild'], 'Humidity': ['High', 'High', 'High', 'High', 'Normal', 'Normal', 'Normal', 'High', 'Normal', 'Normal', 'Normal', 'High', 'Normal', 'High'], 'Wind': ['Weak', 'Strong', 'Weak', 'Weak', 'Weak', 'Strong', 'Strong', 'Weak', 'Weak', 'Weak', 'Strong', 'Strong', 'Weak', 'Strong'], 'Play': ['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No'] }) labels = data['Play'] data = data.drop(columns='Play') decision_tree = create_decision_tree(data, labels) print(decision_tree) ``` 以上代码中,我们首先定义了几个辅助函数。`calculate_entropy`函数用于计算标签的熵,`calculate_information_gain`函数用于计算每个属性的信息增益,`choose_best_attribute`函数用于选择信息增益最高的属性作为划分节点。然后,我们定义了`create_decision_tree`函数来递归构建决策树。 在示例中,我们使用了一个天气预测的数据集来构建决策树。最终打印出的决策树是一个字典,其中键表示划分的属性,值表示该属性的不同取值所对应的子树。 总结来说,Python编程语言提供了丰富的库和工具,可以很方便地实现基于信息熵决策树算法。通过计算属性的熵和信息增益,我们可以选择最优的属性进行划分,从而构建出一个高效且准确的决策树模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值