决策树: ID3算法

最新推荐文章于 2023-02-12 14:56:24 发布

chixujohnny

最新推荐文章于 2023-02-12 14:56:24 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：决策树 ID3 算法机器学习数据挖掘

本文链接：https://blog.csdn.net/chixujohnny/article/details/50429659

版权

决策树算法在数据挖掘和机器学习中应用广泛，尤其因其易于理解和计算复杂度不高而受青睐。ID3算法利用信息增益来选择最优特征进行分类，能处理数值型和标称型数据，但可能面临过拟合问题。尽管存在缺点，其优势在于能揭示数据的内在含义，且对中间值的缺失不敏感。

摘要由CSDN通过智能技术生成

在聚类算法（一）中讲到，K-means算法可以完成很多分类任务，但是最大的缺点就是无法给出数据的内在含义，决策树的主要形式就在于数据形式非常容易理解。

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

缺点：可能会产生过度匹配的问题。

使用数据类型：数值型和标称型。

伪代码如下：

检测数据集中每个子项是否属于同一分类：
	if so return 类标签
	else:
		寻找划分数据集的最好特征
		划分数据集
		创建分支节点
			for 每个划分的分支节点
				调用creatBranch函数并增加返回结果到分支节点中
		return 分支节点

划分数据集的大原则是：将无序的数据变得更加有序。ID3算法采用信息增益值来判断在哪个类标签进行分类，信息增益这个词是由20世纪最聪明的几个人之一——香农，发明的。

熵定义为信息的期望值，在明晰这个概念之前，我们必须要知道信息的定义。为了计算熵，我们需要计算所有类别所有可能值包含信息期望值，通过下面公式得到：

关注

专栏目录