误差与分歧
对所有样本x,令p(x)表示样本的概率密度,则在全样本上:
∑
i
=
1
T
w
i
∫
A
(
h
i
∣
x
)
p
(
x
)
d
x
=
∑
i
=
1
T
w
i
∫
E
(
h
i
∣
x
)
p
(
x
)
d
x
−
∫
E
(
H
∣
x
)
p
(
x
)
d
x
\sum_{i=1}^{T} w_{i} \int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}=\sum_{i=1}^{T} w_{i} \int E\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}-\int E(H | \boldsymbol{x}) p(\boldsymbol{x}) d \boldsymbol{x}
i=1∑Twi∫A(hi∣x)p(x)dx=i=1∑Twi∫E(hi∣x)p(x)dx−∫E(H∣x)p(x)dx
类似的,个体学习器hi在全样本上的泛化误差和分歧项分别为:
- 泛化误差: E i = ∫ E ( h i ∣ x ) p ( x ) d x E_{i}=\int E\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} Ei=∫E(hi∣x)p(x)dx
- 分歧项: A i = ∫ A ( h i ∣ x ) p ( x ) d x A_{i}=\int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x} Ai=∫A(hi∣x)p(x)dx
- 集成分泛化误差为: E = ∫ E ( H ∣ x ) p ( x ) d x E=\int E(H | \boldsymbol{x}) p(\boldsymbol{x}) d \boldsymbol{x} E=∫E(H∣x)p(x)dx
令
E
ˉ
=
∑
i
=
1
T
w
i
E
i
\bar{E}=\sum_{i=1}^{T} w_{i} E_{i}
Eˉ=∑i=1TwiEi表示个体学习器泛化误差的加权均值(体现个体学习器准确性);
A
ˉ
=
∑
i
=
1
T
w
i
A
i
\bar{A}=\sum_{i=1}^{T} w_{i} A_{i}
Aˉ=∑i=1TwiAi表示个体学习器的加权分歧值(体现个体学习器的多样性),有
E
=
E
ˉ
−
A
ˉ
E=\bar{E}-\bar{A}
E=Eˉ−Aˉ(E代表了集成效果)。
则,个体学习器准确性越高,多样性越大,则集成越好,这也体现了一个优秀集成学习的个体分类器“好而不同”的要求。
但不易对 E ˉ − A ˉ \bar{E}-\bar{A} Eˉ−Aˉ直接优化的原因如下:
- 样本是定义在全样本空间中的
- A ˉ \bar{A} Aˉ不是一个可直接操作的多样性度量,仅在集成构造完毕后进行估计
- 只适用于回归,难以直接推广至分类
多样性度量
- 不合度量:不合度量越大,多样性越大
- 相关系数:相关系数越大,多样性越小
- Q-统计量:Q统计量越大,多样性越小
- k-统计量:k越大,多样性越小,k取值在[-1,1],k=1,个体学习器一致。
多样性增强
如果需要有效地生成多样性大的个体学习器,则需要引入随机性,不同的多样性增强机制可同时使用。
- 数据样本扰动:采样法。
如Bagging中采用自助采样,Boosting中采用序列采样。 - 输入属性扰动:适用于属性多、冗余属性多的情况。
如随机森林。 - 输出表示扰动:改变类标记(翻转法)、转化输出表示(输出调制法)、将原任务拆解成多个可同时求解的子任务(如ECOC)。
- 算法参数扰动