偏差 Bias
偏差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。
方差 Variance
方差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。方差通常是由于模型的复杂度相对于训练样本数m过高导致的,比如一共有100个训练样本,而我们假设模型是阶数不大于200的多项式函数。由方差带来的误差通常体现在测试误差相对于训练误差的增量上。
Bagging
Bagging是Bootstrap Aggregate的简称,意思就是再抽样,即每一次从原始数据中根据均匀概率分布有放回的抽取和原始数据大小相同的样本集合,样本点可能出现重复,然后对每一次产生的训练集构造一个分类器,再对分类器进行组合。
Bagging是减小方差的优化。假设有n个完全独立的模型,每个方差为
σ
2
\sigma^2
σ2,也就是说
V
a
r
(
X
i
)
=
σ
2
Var(X_i)=\sigma^2
Var(Xi)=σ2,那么
V
a
r
(
1
n
∑
i
=
1
n
X
i
)
=
1
n
2
V
a
r
(
∑
i
=
1
n
X
i
)
=
σ
2
n
Var(\frac{1}{n}\sum_{i=1}^nX_i)=\frac{1}{n^2}Var(\sum_{i=1}^n{X_i})=\frac{\sigma^2}{n}
Var(n1i=1∑nXi)=n21Var(i=1∑nXi)=nσ2
但是Bagging的过程中有放回,假设单模型的相关系数是p,那么
V
a
r
(
1
n
∑
i
=
1
n
X
i
)
=
p
σ
2
+
(
1
−
p
)
σ
2
n
Var(\frac{1}{n}\sum_{i=1}^nX_i)=p\sigma^2+(1-p)\frac{\sigma^2}{n}
Var(n1i=1∑nXi)=pσ2+(1−p)nσ2,随着n增大,最终趋向于
p
n
σ
2
\frac{p}{n}\sigma^2
npσ2,因此Bagging会是减小方差的优化
P值
P值(P value)就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。