机器学习实战决策树算法笔记

最新推荐文章于 2021-11-17 20:29:28 发布

不思蜀1123

最新推荐文章于 2021-11-17 20:29:28 发布

阅读量3.5k

点赞数 6

分类专栏：机器学习实战 Python 决策树文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_26101209/article/details/49704315

版权

本文详细介绍了决策树算法的原理和实现，包括香农熵的计算、数据集划分、最佳特征选择、多数表决以及决策树的创建。通过Python代码展示了决策树的构建过程，同时提供了可视化决策树的方法，便于理解和应用。

摘要由CSDN通过智能技术生成

trees.py 源码部分：

from math import log
import operator
def calcShannonEnt(dataSet):
numEntries=len(dataSet)
labelCounts={}
for featVec in dataSet:
currentLabel=featVec[-1]
if currentLabel not in labelCounts.keys():
labelCounts[currentLabel]=0
labelCounts[currentLabel]+=1
shannonEnt=0.0
for key in labelCounts:
prob=float(labelCounts[key])/numEntries
shannonEnt-=prob*log(prob,2)
return shannonEnt
def creataDataSet():
dataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
labels=['no surfacing','flippers']
return dataSet,labels
def splitDataSet(dataSet,axis,value):
retDataSet=[]
for featVec in dataSet:
if featVec[axis] == value:
reducedFeatVec=featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)
return retDataSet
def chooesBestFeatureToSplit(dataSet):
numFeatures=len(dataSet[0])-1
baseEntropy=calcShannonEnt(dataSet)
bestInFoGain=0.0
bestFeature=-1
for i in range(numFeatures):
featList=[example[i] for example in dataSet]
uniqueVals=set(featList)
newEntropy=0.0
for value in uniqueVals:
subDataSet=splitDataSet(dataSet,i,value)
prob=len(subDataSet)/float(len(dataSet))
newEntropy +=prob*calcShannonEnt(subDataSet)
infoGain=baseEntropy-newEntropy
if(infoGain>bestInFoGain):
bestInFoGain=infoGain
bestFeature=i
return bestFeature
def majorityCnt(classList):
classCount={}
for vote in classlist:
if vote not in classCount.keys():
classCount[vote]=0
classCount[vote]+=1
sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]
def createTree(dataSet,labels):
classList=[example[-1] for example in dataSet]
if classList.count(classList[0])==len(classList):
return classList[0]
if len(dataSet[0])==1:
return majorityCnt(classList)
bestFeat=chooesBestFeatureToSplit(dataSet)
bestFeatLabel=labels[bestFeat]

最低0.47元/天解锁文章

不思蜀1123

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战决策树算法笔记

卧槽尼玛发现个史诗巨鳄 _name_ 如果加上_name_ 会报错 str object has no attribute ‘_name_‘我在Python27下亲自试过不加_name_ type(secondDict[key]) 直接输出的就是type'dict' 或者是 type'str' 但是最重要事情来了。。。'dict' 和dict的区别 ==右侧如果是'dict' 直接字典就不是字典了。。而改成dict 不加单引号就正确了加上单引号直接就是叶子节点2 深度是1 但是如果不加单引号就
复制链接

扫一扫