文章目录
Bootstrapping
含有m个样本的数据集,有放回采样,样本不被采样到的概率
lim
m
→
∞
(
1
−
1
m
)
m
=
1
e
≃
0.368
\lim_{m\to\infty}(1-\frac{1}{m})^m=\frac{1}{e} \simeq 0.368
m→∞lim(1−m1)m=e1≃0.368
利用少量样本或初始种子集合训练一个初始分类器,对未标注数据进行分类,并将置信度较大的样本加入已标注数据,重复上述过程直至获得较精确的分类器.
分类错误的样本在自我训练过程中不断放大,导致分类器自学习失败. 初始种子集和新标注实例的筛选尤其重要.
Maximum Likelihood Estimation
已知训练集总体概率分布,估计分布参数使样本集最可能出现,称之为极大似然估计(MLE)
.
考虑样本集
X
X
X独立地由未知真实分布
p
data
(
X
)
p_\text{data}(X)
pdata(X)生成,
p
model
(
X
;
θ
)
p_\text{model}(X;\theta)
pmodel(X;θ)为
θ
\theta
θ确定的在相同空间上的概率分布,则MLE表示为
θ
^
=
arg
max
θ
L
(
X
;
θ
)
=
arg
max
θ
p
model
(
X
;
θ
)
=
arg
max
θ
∏
i
=
1
m
p
model
(
x
i
;
θ
)
≃
arg
max
θ
∑
i
=
1
m
log
p
model
(
x
i
;
θ
)
≃
arg
max
θ
E
x
∼
p
^
data
log
p
model
(
x
;
θ
)
\begin{aligned} \hat\theta &=\arg\max_{\theta}L(X;\theta)=\arg\max_{\theta}p_\text{model}(X;\theta)\\ &=\arg\max_\theta\prod_{i=1}^mp_\text{model}(\pmb x_i;\theta)\\ &\simeq\arg\max_\theta\sum_{i=1}^m\log p_\text{model}(x_i;\theta)\\ &\simeq\arg\max_\theta\Bbb E_{\pmb x\sim\hat p_\text{data}}\log p_\text{model}(\pmb x;\theta) \end{aligned}
θ^=argθmaxL(X;θ)=argθmaxpmodel(X;θ)=argθmaxi=1∏mpmodel(xxxi;θ)≃argθmaxi=1∑mlogpmodel(xi;θ)≃argθmaxExxx∼p^datalogpmodel(xxx;θ)
MLE可解释为极小化经验分布 p ^ data \hat p_{\text {data}} p^data和模型分布 p model p_{\text{model}} pmodel之间的KL散度,即极小化分布间的交叉熵.
MLE and MSE
条件最大似然损失的一般形式为
J
(
θ
)
=
−
E
x
,
y
∼
p
^
data
log
p
model
(
y
∣
x
,
θ
)
J(\theta)=-\Bbb E_{x,y\sim \hat p_\text {data}}\log p_\text{model}(y|x,\theta)
J(θ)=−Ex,y∼p^datalogpmodel(y∣x,θ)
假设模型分布服从正太分布,即
p
model
(
y
∣
x
)
=
N
(
y
;
f
(
x
;
θ
)
,
I
)
p_\text{model}(y|x)=\mathcal N(y;f(x;\theta), I)
pmodel(y∣x)=N(y;f(x;θ),I),则添加最大似然等价于MSE
J
(
θ
)
=
1
2
E
x
,
y
∼
p
^
data
∣
∣
y
−
f
(
x
;
θ
)
∣
∣
2
+
const
J(\theta)=\frac{1}{2}\Bbb E_{x,y\sim\hat p_\text{data}}||y-f(x;\theta)||^2+\text{const}
J(θ)=21Ex,y∼p^data∣∣y−f(x;θ)∣∣2+const
负对数似然损失消除了激活函数的指数效果,消除了饱和性(梯度消失).
Calculus of Variations
变分法直接学习模型表示,而不用给定模型表示再去学习参数.
解第一个优化问题,MSE损失
f
∗
=
arg
min
f
E
x
,
y
∼
p
data
∣
∣
y
−
f
(
x
)
∣
∣
2
⟹
f
∗
(
x
)
=
E
y
∼
p
data
(
y
∣
x
)
[
y
]
f^*=\arg\min_f\Bbb E_{x,y\sim p_\text{data}}||y-f(x)||^2\implies f^*(x)=\Bbb E_{y\sim p_\text{data}(y|x)}[y]
f∗=argfminEx,y∼pdata∣∣y−f(x)∣∣2⟹f∗(x)=Ey∼pdata(y∣x)[y]
换句话说,若给定足够多的样本进行训练,最小化MSE将直接得到一个对每个输入 x x x预测出 y y y均值的函数.
解第二个优化问题,平均绝对误差(mean absolute error, MAE)
损失
f
∗
=
arg
min
f
E
x
,
y
∼
p
data
∣
∣
y
−
f
(
x
)
∣
∣
1
f^*=\arg\min_f\Bbb E_{x,y\sim p_\text{data}}||y-f(x)||_1
f∗=argfminEx,y∼pdata∣∣y−f(x)∣∣1
最小化MAE,将直接得到一个可对每个输入 x x x预测 y y y取值的中位数的函数.
Estimation, Bias and Variance
点估计
是根据样本集对真实分布参数的估计,可以是给定数据集的任意函数:
θ
^
=
g
(
X
m
)
,
θ
=
θ
^
+
ϵ
\hat\theta=g(X_m),\quad \theta=\hat\theta+\epsilon
θ^=g(Xm),θ=θ^+ϵ
输入和目标变量间关系的点估计为函数估计
,记为
f
^
\hat f
f^. 真实值和函数估计的关系为
y
=
f
^
(
x
)
+
ϵ
y = \hat{f}(x)+\epsilon
y=f^(x)+ϵ
给定样本集
X
X
X,样本分布偏差
的估计量定义为
Bias
(
θ
^
)
=
E
(
θ
^
)
−
θ
\text{Bias}(\hat\theta)=E(\hat\theta)-\theta
Bias(θ^)=E(θ^)−θ
- 无偏性, Bias ( θ ^ m ) = 0 \text{Bias}(\hat\theta_m)=0 Bias(θ^m)=0;
- 渐进无偏性, lim m → ∞ Bias ( θ ^ m ) = 0 \lim_{m\to\infty}\text{Bias}(\hat\theta_m)=0 limm→∞Bias(θ^m)=0;
以高斯分布为例,说明参数的估计量:
-
均值(mean)
, μ = E ( X ) \mu=E(X) μ=E(X):
μ ^ = 1 m ∑ i = 1 m x i \hat\mu=\dfrac{1}{m}\sum_{i=1}^m x_i μ^=m1i=1∑mxi -
方差(variance)
, σ 2 = Var ( X ) = E [ ( X − E ( X ) ) 2 ] \sigma^2=\text{Var}(X)=E[(X-E(X))^2] σ2=Var(X)=E[(X−E(X))2]:- 有偏方差估计, σ ^ 2 = 1 m ∑ i = 1 m ( x i − μ ^ ) 2 \hat\sigma^2=\dfrac{1}{m}\sum_{i=1}^m(x_i-\hat\mu)^2 σ^2=m1∑i=1m(xi−μ^)2,偏差为 − σ 2 / m -\sigma^2/m −σ2/m;
- 无偏方差估计, σ ~ 2 = m m − 1 σ ^ 2 \tilde\sigma^2=\dfrac{m}{m-1}\hat\sigma^2 σ~2=m−1mσ^2;
-
标准差(standard deviation, SD)
,亦称为均方差(mean standard deviation, MSD)
:
σ ~ = 1 m − 1 ∑ i = 1 m ( x i − μ ^ ) 2 \tilde\sigma=\sqrt{\dfrac{1}{m-1}\sum_{i=1}^m(x_i-\hat\mu)^2} σ~=m−11i=1∑m(xi−μ^)2
样本值偏离样本均值的程度小于偏离总体均值(未知)的程度,方差被低估,分母为 m − 1 m-1 m−1以修正.
Standard Error and Machine Learning
均方根误差(root mean squared error, RMSE)
,亦称为标准误差(standard error, SE)
,反映样本集的可靠性(测量与真实的差别程度),标准误差越低,样本集越能代表总体,定义为
RMSE
=
SE
=
1
m
∑
i
=
1
m
(
x
i
−
x
^
i
)
2
\text{RMSE}=\text{SE}=\sqrt{\frac{1}{m}\sum_{i=1}^m(x_i-\hat x_i)^2}
RMSE=SE=m1i=1∑m(xi−x^i)2
均方误差(mean squared error, MSE)
是RMSE的平方,其和偏差、方差的关系:
MSE
=
E
[
(
θ
^
−
θ
)
2
]
=
(
E
(
θ
^
)
−
θ
)
2
+
E
(
θ
^
2
)
−
E
(
θ
^
)
2
=
Bias
(
θ
^
)
2
+
Var
(
θ
^
)
\begin{aligned} \text{MSE} &=E[(\hat\theta-\theta)^2]=(E(\hat\theta)-\theta)^2+E(\hat\theta^2)-E(\hat\theta)^2\\[.5ex] &=\text{Bias}(\hat\theta)^2+\text{Var}(\hat\theta) \end{aligned}
MSE=E[(θ^−θ)2]=(E(θ^)−θ)2+E(θ^2)−E(θ^)2=Bias(θ^)2+Var(θ^)
若标准偏差为
σ
\sigma
σ,容量为m的样本集的均值方差是总体方差的m分之一,因此均值的标准误差为
Var
(
μ
^
)
=
σ
2
m
⟹
SE
(
u
^
)
=
σ
m
\text{Var}(\hat\mu)=\frac{\sigma^2}{m}\implies \text{SE}(\hat u)=\frac{\sigma}{\sqrt m}
Var(μ^)=mσ2⟹SE(u^)=mσ
机器学习领域常用测试集误差的均值估计泛化误差,由中心极限定理知,均值的分布接近高斯分布,因此可用误差均值(误差集的均值)的标准误差估计以误差均值为中心的95%的置信区间:
(
μ
^
−
1.96
SE
(
μ
^
)
,
μ
^
+
1.96
SE
(
μ
^
)
)
(\hat\mu-1.96\text{SE}(\hat\mu),\ \hat\mu+1.96\text{SE}(\hat\mu))
(μ^−1.96SE(μ^), μ^+1.96SE(μ^))
通常说算法A优于算法B,是指算法A误差的95%置信区间上界小于算法B误差的95%置信区间的下界.
- 样本集容量越大,置信区间范围越窄,样本均值越具有总体均值代表性;
- 误差均值越小,算法性能越好;