集成学习三结合策略及(平均、投票、stacking）与多样性

最新推荐文章于 2025-03-27 09:30:02 发布

loveitlovelife

最新推荐文章于 2025-03-27 09:30:02 发布

阅读量1.4w

点赞数 6

分类专栏：机器学习相关

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79398745

版权

机器学习相关专栏收录该内容

18 篇文章

订阅专栏

集成学习一Boosting
http://blog.csdn.net/loveitlovelife/article/details/79392187
集成学习二Bagging与Random Forest
http://blog.csdn.net/loveitlovelife/article/details/79397739

结合策略

优点：
1.提高泛化性能
2.降低进入局部最小点的风险
3.扩大假设空间

平均法：简单平均、加权平均
适用范围：
+规模大的集成，学习的权重较多，加权平均法易导致过拟合
+个体学习器性能相差较大时宜使用加权平均法，相近用简单平均法。

投票法：
1.绝对多数投票法：某标记超过半数；
2.相对多数投票法：预测为得票最多的标记，若同时有多个标记的票最高，则从中随机选取一个。
3.加权投票法：提供了预测结果，与加权平均法类似。

学习法
Stacking描述：先从初始数据集中训练出初级学习器，然后“生成”一个新数据集用于训练次级学习器。在新数据集中，初级学习器的输出被当做样例输入特征，初始样本的标记仍被当做样例标记。

算法步骤：
输入：训练集 $D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$ ;
初级学习算法： $\Lambda_1,\Lambda_2,...,\Lambda_T;$
次级学习算法： $\Lambda$
过程：
1、 $for~ t=1,2,...,T~ do$
2、 $\quad h_t=\Lambda_t(D);$
3、 $end ~for$
4、 $D^`=\varnothing$
5、 $for~i=1,2,...,m~do$
6、 $\quad for ~t=1,2,...,T~do$
7、 $\qquad z_{it}=h_t(x_i);$
8、 $\quad end for$
9、 $\quad D' =D'\bigcup((z_{i1},z_{i2},...,z{iT}),y_i);$
10、 $end for$
11、 $h^{'}=\Lambda(D');$
输出： $H(x)=h^{'}(h_1(x),h_2(x),...,h_T(x))$

+通过交叉验证产生次级学习器的训练样本；
+将初级学习器的输出类概率作为次级学习器的输入属性，用多响应线性回归作为次基学习算法效果较好；

多样性

1.误差-分歧分解：

H (x) = \sum i = 1 T w i h i (x)

$H(x)=\sum_{i=1}^T w_ih_i(x)$
则学习器

hi h i $h_i$ 的‘分歧’为：

A (h i | x) = (h i (x) - H (x)) 2

$A(h_i|x)=(h_i(x)-H(x))^2$
集成的分歧：

A ¯ (h | x) = \sum i = 1 T w i A (h i | x) = \sum i = 1 T w i (h i (x) - H (x)) 2

$\bar A(h|x)=\sum_{i=1}^T w_iA(h_i|x)=\sum_{i=1}^T w_i(h_i(x)-H(x))^2$
‘分歧’表征了个体学习器在样本上的不一致性即多样性

个体学习器和集成学习器的平方误差分别为：

E (h i | x) = (f (x) - h i (x)) 2

$E(h_i|x)=(f(x)-h_i(x))^2$

E (H | x) = (f (x) - H (x)) 2

$E(H|x)=(f(x)-H(x))^2$
令

E¯(h|x)=∑Ti=1wi⋅E(hi|x) E ¯ ( h | x ) = ∑ i = 1 T w i · E ( h i | x ) $\bar E(h|x)=\sum_{i=1}^T w_i·E(h_i|x)$ 表示个体学习器误差的加权平均值，
则：

A ¯ (h | x) = \sum i = 1 T w i E (h i | x) - E (H | x) = E ¯ (h | x) - E (H | x)

$\bar A(h|x)=\sum_{i=1}^Tw_iE(h_i|x)-E(H|x)=\bar E(h|x)-E(H|x)$

结论：个体学习器准确性越高，多样性越大，则集成性能越好

2.多样性度量
考虑个体分类器的两两相似/不相似性

对于二分类问题，分类器 $h_i和h_j$ 的预测结果列联表为：
这里写图片描述
a表示 $h_i和h_j$ 均预测为正类的样本数目；b、c、d含义由此类推；a+b+c+d=m，则有如下多样性度量方法：

+不合度量 $dis_{ij}=\frac{b+c}{m},值域为[0,1]，其越大多样性越大$

+相关系数 $\rho_{ij}=\frac{ad-bc}{\sqrt {(a+b)(a+c)(c+d)(b+d)}}，值域为[-1,1],若h_i与h_j无关，则值为0；若正相关则为正，否则为负$

+Q-统计量 $Q_{ij}=\frac{ad-bc}{ad+bc},Q_{ij}与相关系数\rho _{ij}符号相同。$

+ $\kappa$ -统计量 $\kappa=\frac{p_1-p_2}{1-p_2},$ 其中 $p_1是两个分类器取得一致的概率；p_2$ 是两个分类器偶然达成一致的概率，他们可有数据集D估算：

p 1 = a + d m; p 2 = ( a + b ) ( a + c ) + ( c + d ) ( b + d ) m 2

$p_1=\frac{a+d}{m};p_2=\frac{(a+b)(a+c)+(c+d)(b+d)}{m^2}$

3多样性增强

+数据样本扰动：基于采样法产生不同数据子集，利用不同子集训练出不同的个体学习器，例如Bagging自助采样；AdaBoost序列采样。
此类扰动方法对“不稳定基学习器”很有效例如：决策树、神经网络

+输入属性扰动：通过对初始属性中提取“子空间（属性子集）”，在不同的空间中训练个体学习器
适用算法：线性学习器、支持向量机、朴素贝叶斯、k-近邻学习器等稳定基学习器，此类扰动可以产生大量多样性的个体，且节省开销时间

+输出表示扰动：对输出表示进行操纵以增强多样性，可对训练样本的类标记稍作变动，如“翻转法”、“ECOC编码法”

+算法参数扰动：设置算法的参数，例如神经网络的隐层神经元数、连接权值等，使用单一学习器时通常需要使用交叉验证方法来确定参数值。

Boosting主要关注降低偏差，而Bagging主要关注降低方差

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。