随机森林

0. 决策树的不足

在机器学习方法中,任何一次实现都是基于一个特定的数据集,而这个数据集可能只是训练集中的一次随机抽样,所以才有了所谓的10折交叉验证等方法。在不使用该方法的情况下,很多机器学习算法受到了这种随机性的影响,因此,得到的模型也具有一定的偶然性。而随机森林通过与该方式结合,在一定程度提高了准确性和推广能力。


1. 自助法

在这里插入图片描述


2. 随机森林

2.1 算法流程

  1. 对样本数据进行自举法重采样,得到多个样本集,即:每次从原来的 N N N个训练样本中又放回的随机抽取 N N N个样本(包括可能重复的样本)。
  2. 利用重采样样本集作为训练样本构造一个决策树,在构造决策树的过程中,每次从所有候选特征中随机选择 m m m个特征(不一定要考虑所有的特征,这是与普通决策树的区别所在),作为当前节点下决策的备选特征,从该特征中进行划分。
  3. 重复步骤1,2,得到一定的数量的决策树后,通过一种方法对这些树的输出进行投票,得到票数最多的类作为最终的输出结果。

2.2 模型评估与参数选择

在第一节中提到,自助法大概有 1 / 3 1/3 1/3的数据无法被用于训练,于是,我们可通过包外估计对算流程步骤2中的 m m m值进行选择,确定最佳的 m m m值。


3. 缺失数据

一般来说,缺失的特征可能会出现在两种情况下:

  1. 在训练集中有部分数据的特征值缺失。
  2. 在待分类的样本中,有部分数据的特征值缺失。

3.1 训练数据特征缺失

1. 根据完整样本填充数据
  • 离散值:选取该特征中所占比例较大的特征数据。
  • 连续值:取该特征的中位数或是均值。
    在这里插入图片描述
    在上图中,第四条数据的Blocked Arteries和Weight特征缺失。根据前三条数据的信息,在特征Blocked ArteriesNo最多,Weight中位数为180,因此,填补数据为:
    在这里插入图片描述
2. 构造随机森林,并计算所有数据在随机森林模型上的输出结果,构造邻近矩阵(proximity)记录每条数据之间的相似程度。

在这里插入图片描述
由于第三条数据和第四条数据结束与同一叶子节点,于是构造的邻近矩阵为:
在这里插入图片描述
同样的,对于第二个决策树,假设有:
在这里插入图片描述
于是更新矩阵为:
在这里插入图片描述
依次类推:
假设经过 10 10 10个决策树后,邻近矩阵的结果为:
在这里插入图片描述
相似矩阵中每个元素均除以决策树个数后,结果如下:
在这里插入图片描述

3. 计算每个特征值的权重

特征值的权重计算公式为:
w i j = p i ∗ M i ∑ M i (3.1) w_i^j=p_i*\frac{M_i}{\sum M_i} \tag{3.1} wij=piMiMi(3.1)
在公式(3.1)中, w i j w_i^j wij代表第 j j j个特征的第 i i i个特征值, p i p_i pi代表第 i i i个特征值在完整数据中所占的比例, M i M_i Mi代表第 i i i个特征的近似程度。
举个栗子:在特征Blocked Arteries中,有yesno两个特征值,其中:
对于yes来说:
在这里插入图片描述
对于no来说:在这里插入图片描述
所以: W y e s = 0.03 W_{yes}=0.03 Wyes=0.03 W n o = 0.6 W_{no}=0.6 Wno=0.6,因此,为no的可能性更大些。
同样的,对于Weight有:
在这里插入图片描述
最后的插补数据结果如下:
在这里插入图片描述

4. 重复步骤1~3,直到所有数据不再变化为止。

3.2 测试数据缺失

在这里插入图片描述

1. 假定标签值的取值

在这里插入图片描述

2. 假定特征值的取值

在这里插入图片描述

3.在模型中运行该数据,统计结果

在决策树中,输出结果即可确定目标值的缺失特征值以及标签值

4. 参考文献

  • 《西瓜书》
  • 《模式识别(第三版)》
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值