科学计算法(机器学习)----决策树定义以相关概念

决策树是一种常见的机器学习算法,常用于分类任务。它通过模拟人类决策过程来构建树形结构。信息熵是衡量数据纯度的指标,影响特征的选择。ID3算法基于信息增益构建决策树。文章还介绍了决策树的结构,包括决策节点、分支和叶子节点。
摘要由CSDN通过智能技术生成

一..决策树

1.决策树是机器学习中一类非常常见的算法,它是一种分类与回归算法,但以分类为主。它的决策思维非常符合人类正常的决策方式。

2.举一个简单的例子, 比如我们要挑选一件衣服,我们就需要做出以下决策:我需要一件男装还是女装?女装。我需要一件正装还是休闲装?休闲装。我需要一件连衣裙还是普通外衣?连衣裙。我需要一件白色的还是其他颜色的?白色。以上几个选择做完,我就可以将具有{女装、休闲装、连衣裙、白色}这一属性组的包做一个“可以买”的标记。如果我认为衣服可以不是白色的,也可以是蓝色的,那么{女装、休闲装、连衣裙、蓝色}这样一个属性组也可以标记为“可以买”。其实,针对{性别、类型1、类型2、颜色}这样一组特征来说,会有很多个不同组合的属性组合。我们可以一一考虑,并分布给每一个分支一个标记,“可以买”或“不会买”。这就是一个简单的决策树决策过程。

3.在决策过程中,对于特征的选择还是比较重要的。比如一件衣服,其实不仅仅只有上面几个特征,可能还有千千万万的特征,然而我们对特征的分类就显得比较棘手,因此我们需要了解信息熵。

二.信息熵

信息熵这一概念由克劳德·香农于1948 年提出。香农是美国著名的数学家、信息论创始人,他提出的“信息熵”的概念,为信息论和数字通信奠定了基础。公式如下:(可以不用了解)

 一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

 

三.ID3算法(决策树的发展)

ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。

该算法是以信息论为基础,以信息熵信息增益度为衡量标准,从而实现对数据的归纳分类。

四.决策树的组成(结构)

决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。

学号:202113430110

姓名:罗媛

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值