第5节--决策树算法

这篇博客介绍了决策树算法,包括其在机器学习中的重要性、基本构造算法、熵和信息增益的概念,以及ID3算法的详细步骤。还讨论了如何处理连续性变量,决策树的剪枝策略,以及其优缺点。

0、机器学习中算法的评价

  • 准确率
  • 速度
  • 强壮性
  • 可规模性
  • 可解释性

1、什么是决策树(decision tree)

决策树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。

这里写图片描述

2、它是机器学习中分类方法中一个重要的算法

3、构造决策树的基本算法

例子:“什么样的人买电脑”

下图为数据集:
这里写图片描述

下图为依据数据集建立的决策树:
这里写图片描述

4、熵(entropy)

1948年,香农提出了 ”信息熵(entropy)“的概念。

一条信息的信息量大小和它的不确定性有直接的关系。

要搞清楚一件非常非常不确定的事情,或是我们一无所知的事情,需要了解大量信息。

信息量的度量就等于不确定性的多少。

example:猜世界杯冠军,假如一无所知,猜多少次?(二分法)
每个队夺冠的几率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值