基于周志华的西瓜书(p.172)解释集成学习简单投票法概率。并参考知乎董豪晨的回答
对于二分类问题
y=[−1,1]
,假设错误率为
q
,且真实集函数表达为
P(hi≠f(x))=q
则对于用简单投票法和T个分类器,超过半数的分类器分类正确,则集成分类就正确:
H(x)=sign(∑i=1Thi(x))
证明:
由Hoeffding不等式(霍夫丁不等式):
若硬币正面朝上概率为 p ,反面朝上概率为
1−p=q ,令 H(n) 为抛硬币 n 次硬币所得正面朝上的次数,则最多k 次正面朝上的概率为:
P(H(n)≤k)=∑i=0kCinpi(1−p)n−i
若 δ>0,K=(p−δ)n ,则有:
P(H(n)≤(p−δ)n)≤e−2δ2n
若要正确分类率
H(x)
>0.5(即至少有T/2个分类器分类正确),应该满足公式:
P(H(n)≤(p−δ)T/2)≤e−2δ2n
上式中
(p−δ)T=[T2]
,所以有
δ=p−1T[T2]≥p−12=2p−12=1−2q2
又
∀δ>0
,所以
p−1T[T2]≥0
因此要使超过一半的分类器分类正确,则
p≥0.5
,因而超过半数的分类器分类正确,则集成分类就正确。
当
δ=1−2qq
P(H(n)≤T2)=∑i=0T2Cinpi(1−p)T−i≤e−2(12−q)2T=e−T2(1−2q)2
由上式可知,在每个分类器相互独立情况下,随着分类器数量T的增加,集成的错误率趋向于0。