今天学习了决策树的最后一部分。
基本树的建立用到了递归的思想,这个名词真的有些模糊了。本科期间数据结构的课是半蹭的,基本知识也忘了好多。后面金融数据的分析也用不到太多数据结构的思想。
虽然理解上没什么问题,但靠自己估计还是写不出来的。
代码如下
def majorityCnt(classList):
classCount={}
for vote in classList:
if vote not in classCount.keys():classCount[vote] = 0
classCount[vote] += 1
sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)
return sortedClassCount[0][0] #这个函数对各类数出现的频数进行统计,并排序返回最大值标签,与KNN中的排序函数相同
def createTree(dataSet, labels):
classList = [example[-1] for example in dataSet] #取数据集中所有的标签
if classList.count(classList[0]) == len(classList):
return classList[0] #如果所有数据都是一个种类,则无需选择,直接返回标签,即叶节点的情况
if len(dataSet[0]) == 1:
return majorityCnt(classList)#遍历所有特征后,该数据出现最多的类
bestFeat = chooseBestFeatureToSplit(dataSet) #首先选取最优的分类特征值
bestFeatLabel = labels[bestFeat] #得到该特征值对应的标签
myTree = {bestFeatLabel:{}}#树的数据结构为字典,分支结点所用的key为所选择的特征值
del(labels[bestFeat])#将使用过的特征值删去
featValues = [example[bestFeat] for example in dataSet] #提取出最优特征值的所有出现值
unqiueVals = set(featValues)#删去重复值
for value in uniqueVals:
subLabels = labels[:]#取到删去上一步最优特征值后的特征值标签
myTree[bestFeatLabe1][value] = createTree(splitDataSet(dataSet,BestFeat,value),subLabels)#对每一个分支节点下诞生的分类生成新的子树
return myTree
本来这部分的学习昨天就该完成的,无奈昨天TES被暴打,兴致全无
明天会开始新模型的学习。
复习一下决策树的基本思路:
1.在节点选择最优的分类特征值
2.在决定最优分类特征值时,用信息熵来判别特征值的优劣
3.由该特征值做数据划分。
4.在划分完后的各子数据集中,再次寻找最优的特征值,进行分类。
5。直到使用完所有特征值,或者所剩数据种类相同。
使用数据集训练过程便是构建决策树的过程。
用新数据做预测时,走一遍决策树即可完成对该数据的分类预测。