2021-04-13

集成学习打卡-08

Bagging (Bootstrap aggregating)

Bagging 全称叫 Bootstrap aggregating,与投票法不同的是Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从上面提到的有较小的同质性假设。所采用的策略是每个基学习器都会对训练集进行有放回抽样得到子训练集(比较著名的采样法为 0.632 自助法增加模型的差异性。
链接:https://zhuanlan.zhihu.com/p/86263786

Bagging的基本流程

图片来源
图片来源链接: https://images2015.cnblogs.com/blog/927391/201607/927391-20160717135005498-1140287801.jpg.
如图中所示,首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终我们可以获得一个大小为K的样本集合。同样的方法, 我们可以采样出T个含K个样本的采样集合,然后基于每个采样集合训练出一个基学习器,再将这些基学习器进行综合,常用的综合方法是投票法:(1)对回归问题的预测是通过预测取平均值来进行的。(2)对于分类问题的预测是通过对预测取多数票预测来进行的.另外该方法之所以有效,是因为每个模型都是在略微不同的训练数据集上拟合完成的,这又使得每个基模型之间存在略微的差异,使每个基模型拥有略微不同的训练能力,其实质同样是一种降低方差的技术。

树模型

常见的Bagging算法的基模型是树模型,这里的树模型一般指决策树,它是一种树形结构,树的每个非叶子节点表示对样本在一个特征上的判断,节点下方的分支代表对样本的划分。决策树的建立过程是一个对数据不断划分的过程,每次划分中,首先要选择用于划分的特征,之后要确定划分的方案(类别/阈值)。我们希望通过划分,决策树的分支节点所包含的样本“纯度”尽可能地高。节点划分过程中所用的指标主要是信息增益和GINI系数。
在介绍树模型之前对信息论的一些基础概念有必要讲解一下。在讲解之前我们思考一下这几个问题:
信息有大小吗,如果有大小的话那么如何度量信息的大小?又应该如何度量信息之间的关系呢?

信息熵

在日常生活中,我们应该遇到过这样类似的情况:有的人简单说了一句话,我们感觉这句话信息量好大,一时缓不过神来。有的人说了一堆话,感觉和没说一样,半天提取不出来重点信息
那什么是信息熵:信息熵是被喻为信息论之父——克劳德·香农于1948 提出的概念。信息熵的提出解决了信息的度量问题。具体来说信息熵 就是用来衡量信息量的大小。其中这个字出自与热力学,表示系统混乱的程度,在信息论中我们用信息熵来表示信息的大小。简单理解信息的不确定性越大,信息熵就越大,信息的不确定性越小,信息熵也就越小。
在这里插入图片描述
举个栗子: 我和小美在聊天,小美说:明天天气真好,是晴天,气温有25度,风力不到3级,我们去打网球吧。这句话看似很短,但对于我来说,我要从这句话中提取出有用的信息,但问题来了,我不可能在听到小美说的话后就立刻在自己的脑袋里刻上这条信息。明天天气是否真的那么好?会是晴天吗?如果是晴天,可能达到25度吗,风力真的小于三级吗?也就是说这条信息具有 太多的不确定性,不确定性和信息的大小是密切相关的,如果一条信息的不确定性很大,我们要获取到它,必须查阅很多的资料。明天是晴天?我先去看看天气预报。如果小美说今天天气真好,是晴天,微风,我们一起去打球吧。这句话的不确定性就非常小,因为我知道今天是什么天气。我们可以得出信息的信息量与其不确定性有着直接的关系
怎么计算呢?
在说信息熵之前还要引入一个概念:自信息量。自信息量 是用来描述某一条信息(自己)的大小
在这里插入图片描述
通常我们衡量的都是一个系统的信息量,系统 S 内存在多个事件S = {E1,…,En},每个事件的概率分布P = {p1, …, pn},熵就是是整个系统的平均消息量
在这里插入图片描述
从公式我们能看出 信息熵是接收的每条消息中包含的信息的平均量,也被称为平均自信息量

条件熵

在实际当中,我们常常希望信息熵越小越好,因为这样我们就能少费点力气来确定信息。那么如何减小信息熵呢,最简单的方法就是增加上下文。前面提到的只是一元模型,为降低信息的不确定性也就是减小信息熵的大小,我们引入二元模型或更高阶的模型。
二元模型——条件熵,条件熵表示在已知第二个随机变量 X 下第一个随机变量 Y 信息熵的大小。条件上用 H(Y|X) 表示。
在这里插入图片描述

信息增益

信息增益定义为信息熵与条件熵的差值 I G = H ( Y ) − H ( Y ∣ X ) IG=H(Y)−H(Y|X) IG=H(Y)H(YX)
一般来说,通过一种划分方式带来的纯度提升越大,信息增益就越高。ID3算法以信息增益为准则来选择决策树划分属性。值多的属性更有可能会带来更高的纯度提升,所以信息增益的比较偏向选择取值多的属性。但可能会带来一个不好的结果,如果选择唯一ID作为划分属性,那么会得到n个类别,每个类别都只包含一个样本,每个节点的纯度都是最高的,纯度提升也是最大的,带来的信息增益也是最高的。但是这样的划分是没有意义的。
所以,为了避免ID3算法的选择偏好可能带来的不利影响,C4.5算法不直接使用信息增益为准则来选择划分属性,而是使用增益率(gain ratio)来划分。
在这里插入图片描述
参考链接: https://blog.csdn.net/wwh578867817/article/details/50464922.
参考链接: https://www.zhihu.com/question/22928442/answer/354885414.
参考链接: https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值