机器学习之决策树 Decision Tree（二）Python实现

最新推荐文章于 2022-07-29 18:03:55 发布

ivy_reny

最新推荐文章于 2022-07-29 18:03:55 发布

阅读量824

点赞数 1

分类专栏：机器学习文章标签：机器学习决策树 python

本文链接：https://blog.csdn.net/ivy_reny/article/details/78748949

版权

本文深入探讨了机器学习中的决策树算法，重点关注如何使用Python进行熵计算，这是构建决策树过程中的关键步骤。

摘要由CSDN通过智能技术生成

计算给定数据集的熵

from math import log
# 计算给定数据集的熵
def calcShannonEnt(dataSet):
	numEntries = len(dataSet)
	labelCounts = {}
	for featVec in dataSet:			# 为所有可能分类创建字典
		currentLabel = featVec[-1]  # 最后一列数据为键值
		if currentLabel not in labelCounts.keys():
			labelCounts[currentLabel] = 0
		labelCounts[currentLabel] += 1
	shannonEnt = 0.0
	for key in labelCounts:
		prob = float(labelCounts[key])/numEntries
		shannonEnt -= prob * log(prob, 2)
	return shannonEnt

划分数据集

def createDataSet():
	dataSet = [[1,1,'yes'],
				[1,1,'yes'],
				[1,0,'no'],
				[0,1,'no'],
				[0,1,'no']]
	labels = ['no surfacing', 'flippers']
	return dataSet, labels

# 按照给定特征划分数据集
def splitDataSet(dataSet, axis, value):
	retDataSet = []
	for featVec in dataSet:
		if featVec[axis] == value:
			reducedF