集成学习之个体学习器的多样性

集成学习中个体学习器的多样性

误差与分歧

  对所有样本x,令p(x)表示样本的概率密度,则在全样本上:
∑ i = 1 T w i ∫ A ( h i ∣ x ) p ( x ) d x = ∑ i = 1 T w i ∫ E ( h i ∣ x ) p ( x ) d x − ∫ E ( H ∣ x ) p ( x ) d x \sum_{i=1}^{T} w_{i} \int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}=\sum_{i=1}^{T} w_{i} \int E\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}-\int E(H | \boldsymbol{x}) p(\boldsymbol{x}) d \boldsymbol{x} i=1TwiA(hix)p(x)dx=i=1TwiE(hix)p(x)dxE(Hx)p(x)dx
  类似的,个体学习器hi在全样本上的泛化误差和分歧项分别为:

  • 泛化误差: E i = ∫ E ( h i ∣ x ) p ( x ) d x E_{i}=\int E\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} Ei=E(hix)p(x)dx
  • 分歧项: A i = ∫ A ( h i ∣ x ) p ( x ) d x A_{i}=\int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} Ai=A(hix)p(x)dx
  • 集成分泛化误差为: E = ∫ E ( H ∣ x ) p ( x ) d x E=\int E(H | \boldsymbol{x}) p(\boldsymbol{x}) d \boldsymbol{x} E=E(Hx)p(x)dx

  令 E ˉ = ∑ i = 1 T w i E i \bar{E}=\sum_{i=1}^{T} w_{i} E_{i} Eˉ=i=1TwiEi表示个体学习器泛化误差的加权均值(体现个体学习器准确性); A ˉ = ∑ i = 1 T w i A i \bar{A}=\sum_{i=1}^{T} w_{i} A_{i} Aˉ=i=1TwiAi表示个体学习器的加权分歧值(体现个体学习器的多样性),有 E = E ˉ − A ˉ E=\bar{E}-\bar{A} E=EˉAˉ(E代表了集成效果)。
则,个体学习器准确性越高,多样性越大,则集成越好,这也体现了一个优秀集成学习的个体分类器“好而不同”的要求。

  但不易对 E ˉ − A ˉ \bar{E}-\bar{A} EˉAˉ直接优化的原因如下:

  • 样本是定义在全样本空间中的
  • A ˉ \bar{A} Aˉ不是一个可直接操作的多样性度量,仅在集成构造完毕后进行估计
  • 只适用于回归,难以直接推广至分类

多样性度量

  • 不合度量:不合度量越大,多样性越大
  • 相关系数:相关系数越大,多样性越小
  • Q-统计量:Q统计量越大,多样性越小
  • k-统计量:k越大,多样性越小,k取值在[-1,1],k=1,个体学习器一致。

多样性增强

  如果需要有效地生成多样性大的个体学习器,则需要引入随机性,不同的多样性增强机制可同时使用。

  • 数据样本扰动:采样法。
    如Bagging中采用自助采样,Boosting中采用序列采样。
  • 输入属性扰动:适用于属性多、冗余属性多的情况。
    如随机森林。
  • 输出表示扰动:改变类标记(翻转法)、转化输出表示(输出调制法)、将原任务拆解成多个可同时求解的子任务(如ECOC)。
  • 算法参数扰动
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值