决策树不调包超详细python代码实现及案例

一、概述

决策树是一种有监督学习算法,是一种基本的分类与回归的方法,它主要分为两种:分类树回归树

二、了解ID3,C4.5,CART衡量分裂点不存度的指标

	ID3:使用信息增益进行特征选择
	C4.5:信息增益率
	CART:基尼系数 
	一个特征的信息增益(或信息增益率,或基尼系数)越大,表明特征对样本的熵的减少能力更强(越快到达叶子结点),这个特征使得数据由不
确定性到确定性的能力越强。所以选分裂点要选该节点衡量系数最大的。

三、分类树的构建(以ID3举例)

构建步骤

  • 开始,所有记录看作一个节点
  • 遍历每个特征的每一种分裂方式,找到最好的分裂特征(分裂点)
  • 分裂成两个或多个节点
  • 对分裂后的节点分别继续执行2-3步,直到每个节点足够“纯”为止

ID3以信息增益来选取分裂点,信息增益公式:
在这里插入图片描述
香农熵公式:
在这里插入图片描述

举个例子算:
在这里插入图片描述
手动计算一下,海洋生物数据集中第0列的信息增益:
在这里插入图片描述

python代码实现

def calEnt(dataset):
	n = dataset.shape[0] #数据集总行数
	columns_set = dataset.iloc[:,-1].value_counts() # 所有分类类别提取出来
	p = columns_set / n
	ent = (-p * np.log2(p)).sum() # 计算信息熵
	return ent

#选择最优的列进行切分
def bestSplit(dataSet):
    baseEnt = calEnt(dataSet) #计算原始熵
    bestGain = 0 #初始化信息增益
    axis = -1 #初始化最佳切分列,标签列
    for i in range(dataSet.shape[1]-1): #对特征的每一列进行循环
        levels= dataSet.iloc[:,i].value_counts().index #提取出当前列的所有取值
        ents = 0 #初始化子节点的信息熵
        for j in levels: #对当前列的每一个取值进行循环
            childSet = dataSet[dataSet.iloc[:,i]==j] #某一个子节点的dataframe
            ent = calEnt(childSet) #计算某一个子节点的信息熵
            ents += (childSet.shape[0]/dataSet.shape[0])*ent #计算当前列的信息熵
            #print(f'第{i}列的信息熵为{ents}')
        infoGain = baseEnt-ents #计算当前列的信息增益
        #print(f'第{i}列的信息增益为{infoGain}')
        if (infoGain > bestGain):
            bestGain = infoGain #选择最大信息增益
            axis = i #最大信息增益所在列的索引
    return axis
#删除选好的分裂点(特征)所在的那一列
def mySplit(dataSet,axis,value):
    col = dataSet.columns[axis]
    redataSet = dataSet.loc[dataSet[col]==value,:].drop(col,axis=1)
    return redataSet

# 创建树
def createTree(dataSet):
    featlist = list(dataSet.columns) #提取出数据集所有的列
    classlist = dataSet.iloc[:,-1].value_counts() #获取最后一列类标签
    #判断最多标签数目是否等于数据集行数,或者数据集是否只有一列
    if classlist[0]==dataSet.shape[0] or dataSet.shape[1] == 1:
        return classlist.index[0] #如果是,返回类标签
    axis = bestSplit(dataSet) #确定出当前最佳切分列的索引
    bestfeat = featlist[axis] #获取该索引对应的特征
    myTree = {bestfeat:{}} #采用字典嵌套的方式存储树信息
    del featlist[axis] #删除当前特征
    valuelist = set(dataSet.iloc[:,axis]) #提取最佳切分列所有属性值
    for value in valuelist: #对每一个属性值递归建树
        myTree[bestfeat][value] = createTree(mySplit(dataSet,axis,value))
    return myTree

# 分类判断
def classify(inputTree,labels, testVec):
    firstStr = next(iter(inputTree)) #获取决策树第一个节点
    secondDict = inputTree[firstStr] #下一个字典
    featIndex = labels.index(firstStr) #第一个节点所在列的索引
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]) == dict :
                classLabel = classify(secondDict[key], labels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

# 计算accuracy值 
def acc_classify(train,test):
    inputTree = createTree(train) #根据测试集生成一棵树
    labels = list(train.columns) #数据集所有的列名称
    result = []
    for i in range(test.shape[0]): #对测试集中每一条数据进行循环
        testVec = test.iloc[i,:-1] #测试集中的一个实例
        classLabel = classify(inputTree,labels,testVec) #预测该实例的分类
        result.append(classLabel) #将分类结果追加到result列表中
    test['predict']=result #将预测结果追加到测试集最后一列
    acc = (test.iloc[:,-1]==test.iloc[:,-2]).mean() #计算准确率
    print(f'模型预测准确率为{acc}')
    return test

row_data = {'no surfacing':[1,1,1,0,0],
                'flippers':[1,1,0,1,1],
                'fish':['yes','yes','no','no','no']}
dataSet = pd.DataFrame(row_data)
myTree = createTree(dataSet)
labels = list(dataSet.columns)
inputTree = myTree
train = dataSet
test = dataSet.iloc[:3,:]
acc_classify(train,test)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值