十大经典机器学习算法——决策树

目录

一.什么是决策树

二.构造决策树

三.优缺点


一.什么是决策树

一种最基本的分类与回归方法,因为实际应用中基本上全是用来分类,所以重点讨论分类决策树。其本质就是一颗树,根据损失函数最小化原则选择根节点,节点决定分类的走向哪个叶节点,叶节点代表最后的类型。

二.构造决策树

1.选择根节点

(1)熵:代表事物的混乱程度,在分类中不需要过度理解,只要知道熵越小混乱程度越小,分类的效果也就越好。

 Pi代表分类后一类出现的概率。Gini也是来衡量分类效果的,都是越小越好。

2.构建

过程中要随着树的深度增加使熵值下降最快越好。举例:

 用着四个特征构造决策树,首先确定根节点。

 首先计算假如没有进行选择节点看熵的大小:一天打球的概率使9/14,不打球是5/14,所以:

 算outlook为根节点

 

3.递归构造

知道了temperature是最佳根节点,根据它的子节点中的数据进行再次计算其他三个分类的信息增益,使得信息增益最大即可。

4.ID3存在的问题:

上文的决策方法是ID3,这个方法主要的缺点是可能出现分类过多,假如上文中的分类是14个,即每个人一个类,那么熵为零,这样信息增益最大,但实际中不可能每个人一类。

改进方法C4.5:算的信息增益除以熵来当作新的评价指标。

5.剪枝

·预剪枝:构造决策树,设定数的深度,提前停止,避免过拟合。

·后剪枝:构建完决策树,剪枝。比如设定一些条件。评价函数和叶子节点个数共同决定是否剪枝。这里α是自定义的参数。

 6.随机森林

随机:1随机选择多个样本,随机选择多个特征,也就是本来100*100的样本随机选取出50*50的样本进行构建决策树。

当训练好森林之后,想要预测,把特征发送给森林里面所有相关的数目,获得多个结果,如果是离散的数据,只需计算最多的结果,连续的计算平均值即可。

三.优缺点

优点

1)决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。
2)对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
3)准确性高: 挖掘出来的分类规则准确性高, 便于理解, 决策树可以清晰的显示哪些字段比较重要, 即可以生成可以理解的规则.
4)适合处理有缺失属性的样本,对缺失值不敏感
 

缺点

1)容易发生过拟合(剪枝 随机森林)
2)分类过程中每一步都依据单一特征,忽视了特征之间的关联性,在处理特征关联性强的数据时表现不好
3)对于样本不均衡的数据集表现不好,欠拟合。在特征选择时ID3算法偏好于选取可取值数目较多的属性,C4.5算法偏向选取可取值数目较少的属性(实际中是在算法中采用启发式原则,先从候选属性中选出信息增益高于平均水平的属性,再从中选择增益率最高的属性)
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
决策树算法是一种广泛应用于分类和回归的机器学习算法,它基于树形结构对样本进行分类或预测。决策树算法的主要思想是通过一系列的判断来对样本进行分类或预测。在决策树中,每个节点表示一个属性或特征,每个分支代表该属性或特征的一个取值,而每个叶子节点代表一个分类或预测结果。 决策树算法的训练过程主要包括以下步骤: 1. 特征选择:根据某种指标(如信息增益或基尼系数)选择最优的特征作为当前节点的分裂属性。 2. 决策树生成:根据选择的特征将数据集分成若干个子集,并递归地生成决策树。 3. 剪枝:通过剪枝操作来提高决策树的泛化性能。 决策树算法的优点包括易于理解和解释、计算复杂度较低、对缺失值不敏感等。但是,决策树算法也存在一些缺点,如容易出现过拟合、对离散数据敏感等。 下面是一个决策树算法的案例:假设我们要根据一个人的年龄、性别、教育程度和职业预测其收入水平(高于或低于50K)。首先,我们需要将这些特征进行编码,将其转换为数值数据。然后,我们可以使用决策树算法对这些数据进行训练,并生成一个决策树。最后,我们可以使用该模对新的数据进行分类或预测。例如,根据一个人的年龄、性别、教育程度和职业,我们可以使用决策树预测该人的收入水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值