决策树: ID3算法

在聚类算法(一)中讲到,K-means算法可以完成很多分类任务,但是最大的缺点就是无法给出数据的内在含义,决策树的主要形式就在于数据形式非常容易理解。

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点:可能会产生过度匹配的问题。

使用数据类型:数值型和标称型。


伪代码如下:

检测数据集中每个子项是否属于同一分类:
	if so return 类标签
	else:
		寻找划分数据集的最好特征
		划分数据集
		创建分支节点
			for 每个划分的分支节点
				调用creatBranch函数并增加返回结果到分支节点中
		return 分支节点


划分数据集的大原则是:将无序的数据变得更加有序。ID3算法采用信息增益值来判断在哪个类标签进行分类,信息增益这个词是由20世纪最聪明的几个人之一——香农,发明的。

熵定义为信息的期望值,在明晰这个概念之前,我们必须要知道信息的定义。为了计算熵,我们需要计算所有类别所有可能值包含信息期望值,通过下面公式得到:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值