决策树与随机森林(1)——R语言学习

本文介绍了决策树与随机森林的基础知识,重点讨论了R语言中决策树的学习过程,包括数学思想、建树和剪枝方法,如信息增益、基尼系数等,并通过iris案例展示了决策树的代码实现。
摘要由CSDN通过智能技术生成

决策树与随机森林

1、树形模型和线性模型
树形模型:一个一个特征值进行处理。
线性模型:所有特征值基于权重相加得到的一个新值。
2、决策树和逻辑回归
决策树:对每一个特征值做一个划分,非线性分割。
逻辑回归:将所有特征值变换为概率后,通过大于某个概率阙值的划分为一类,小于某一个阙值的为另一类,线性分割。
3、树形模型优点
更加接近人的思维方式,可以产生可视化的分类规则,产生的模型具有可解释性。树模型拟合出来的函数其实是分区间的阶梯函数。
4、重要的基本概念
根节点:最重要的特征
父节点与子节点:这两个是一对,先有父节点后又子节点。
叶节点:最终标签

一、决策树

决策树学习:采用自顶向下的递归方法,基本思想是以信息熵为度量构造一个熵值下降最快的树,到叶子节点处熵值为0.

(一)、决策树生成的数学思想

在这里插入图片描述
决策树思想:实际上就是寻找最纯净的划分方法(也称纯度),纯度可以理解为目标变量要分得足够开(y=1和y=0的混到一起就会不纯)。另一种理解分类误差率的衡量。实际决策树算法往往用到的是不纯度。不纯度的选取有多种方法,每种方法也就形成了不同的决策树方法。

算法 不纯度
ID3 信息增益
C4.5 信息增益率
CART 基尼系数

(二)、决策树:建树和剪枝

1、建树

(1)如何按次序选择属性
也就是首先树根上以及树节点是哪个变量呢?这些变量是从最重要到次重要依次排序的,那怎么衡量这些变量的重要性呢? ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。决策树方法是会把每个特征都试一遍,然后选取那个,能够使分类分的最好的特征,也就是说将A属性作为父节点,产生的纯度增益(GainA)要大于B属性作为父节点,则A作为优先选取的属性。在这里插入图片描述
(2)如何分列训练集(对每个属性选择最优的分割点)
分裂的准则:通过不纯度来分裂数据,通过比较划分前后的不纯度的值,来确定如何分裂。

方法1:CART算法:既可以做分类,也可以做回归。只能形成二叉树。

  • 分支条件:二分类
  • 分支方法<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值