决策树与随机森林（1）——R语言学习

最新推荐文章于 2024-06-24 09:58:32 发布

阿丘妍妍

最新推荐文章于 2024-06-24 09:58:32 发布

阅读量785

点赞数 1

分类专栏： R语言学习笔记文章标签： r语言

本文链接：https://blog.csdn.net/weixin_41672942/article/details/106695310

版权

本文介绍了决策树与随机森林的基础知识，重点讨论了R语言中决策树的学习过程，包括数学思想、建树和剪枝方法，如信息增益、基尼系数等，并通过iris案例展示了决策树的代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树与随机森林

1、树形模型和线性模型
树形模型：一个一个特征值进行处理。
线性模型：所有特征值基于权重相加得到的一个新值。
2、决策树和逻辑回归
决策树：对每一个特征值做一个划分，非线性分割。
逻辑回归：将所有特征值变换为概率后，通过大于某个概率阙值的划分为一类，小于某一个阙值的为另一类，线性分割。
3、树形模型优点
更加接近人的思维方式，可以产生可视化的分类规则，产生的模型具有可解释性。树模型拟合出来的函数其实是分区间的阶梯函数。
4、重要的基本概念
根节点：最重要的特征
父节点与子节点：这两个是一对，先有父节点后又子节点。
叶节点：最终标签

一、决策树

决策树学习：采用自顶向下的递归方法，基本思想是以信息熵为度量构造一个熵值下降最快的树，到叶子节点处熵值为0.

（一）、决策树生成的数学思想

在这里插入图片描述
决策树思想:实际上就是寻找最纯净的划分方法（也称纯度），纯度可以理解为目标变量要分得足够开（y=1和y=0的混到一起就会不纯）。另一种理解分类误差率的衡量。实际决策树算法往往用到的是不纯度。不纯度的选取有多种方法，每种方法也就形成了不同的决策树方法。

算法	不纯度
ID3	信息增益
C4.5	信息增益率
CART	基尼系数

（二）、决策树：建树和剪枝

1、建树

（1）如何按次序选择属性
也就是首先树根上以及树节点是哪个变量呢？这些变量是从最重要到次重要依次排序的，那怎么衡量这些变量的重要性呢？　ID3算法用的是信息增益，C4.5算法用信息增益率；CART算法使用基尼系数。决策树方法是会把每个特征都试一遍，然后选取那个，能够使分类分的最好的特征，也就是说将A属性作为父节点，产生的纯度增益（GainA）要大于B属性作为父节点，则A作为优先选取的属性。在这里插入图片描述
（2）如何分列训练集（对每个属性选择最优的分割点）
分裂的准则：通过不纯度来分裂数据，通过比较划分前后的不纯度的值，来确定如何分裂。