机器学习之决策树

最新推荐文章于 2024-06-04 22:50:27 发布

进步小白

最新推荐文章于 2024-06-04 22:50:27 发布

阅读量227

点赞数 2

分类专栏：机器学习文章标签：机器学习决策树算法

本文链接：https://blog.csdn.net/am_student/article/details/121706827

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

什么是机器学习：

什么是决策树

关于信息增益问题：

什么是机器学习：

例如：

：爸爸的爸爸叫什么？

：叔叔

错了，纠正

：爸爸的爸爸叫什么？

：阿姨。

错了，纠正

many years later......

：爸爸的妈妈叫什么？

：奶奶

：爸爸的弟弟叫什么？

：叔叔。

机器学习的顾名思义就是机器的学习。

机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习：监督学习、非监督学习和强化学习，所有这些都有其特定的优点和缺点。

最开始的几步是对于模型的训练，纠错可以理解为训练时的误差，模型根据误差调整自身参数，这就是机器学习里常用的Backpropagation的简单的解释。

什么是决策树

决策树算法是借助于树的分支结构实现分类。

其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

其步骤为：

1.将所有的特征看成一个一个的节点；

2.遍历所有特征,遍历到其中某一个特征时:遍历当前特征的所有分割方式，找到最好的分割点,将数据划分为不同的子节点,计算划分后子节点的纯度信息；

3.在遍历的所有特征中,比较寻找最优的特征以及最优特征的最优划分方式,纯度越高,则对当前数据集进行分割操作；

4.对新的子节点继续执行2-3步,直到每个最终的子节点都足够纯。

举个例子：

小明同学想根据天气情况是否享受游泳运动：

那么他想享受运动的决策树可以这样写：

可以看出，总共的实例有14个（出去运动的实例有9个，不运动的实例有5个），从树顶往下看，首先看到菱形的选项，意思是天气如何？然后分出了三个分支——晴天，阴天，雨天。实例中是天气属性为晴天，并决定要去运动的有2个，不去运动的有3个；天气属性为阴天，并决定去运动的有4个，不运动的有0个；天气属性为雨天，并决定去运动的有3个，不运动的有2个。从图中我们可以看到，当标记中的正例或者反例为0个时，树就不继续往下扩展了（比如天气属性为阴天的时候，不去运动的实例为0个）。假如正例或者反例都不为0时，那么就要根据属性继续往下扩展树。

关于信息增益问题：

训练数据集合D，|D|为样本容量，即样本的个数（D中元素个数），设有K个类Ck来表示，|Ck|为Ci的样本个数，|Ck|之和为|D|，k=1，2.....，根据特征A将D划分为n个子集D1，D2.....Dn，|Di|为Di的样本个数，|Di|之和为|D|,i=1,2,....,记Di中属于Ck的样本集合为Dik,即交集，|Dik|为Dik的样本个数，算法如下：

输入：D，A

输出：信息增益g(D,A)

D的经验商为：