数理统计(参数估计、方差估计、偏差)

Bootstrapping

含有m个样本的数据集,有放回采样,样本不被采样到的概率
lim ⁡ m → ∞ ( 1 − 1 m ) m = 1 e ≃ 0.368 \lim_{m\to\infty}(1-\frac{1}{m})^m=\frac{1}{e} \simeq 0.368 mlim(1m1)m=e10.368

利用少量样本或初始种子集合训练一个初始分类器,对未标注数据进行分类,并将置信度较大的样本加入已标注数据,重复上述过程直至获得较精确的分类器.

分类错误的样本在自我训练过程中不断放大,导致分类器自学习失败. 初始种子集和新标注实例的筛选尤其重要.


Maximum Likelihood Estimation

已知训练集总体概率分布,估计分布参数使样本集最可能出现,称之为极大似然估计(MLE).

考虑样本集 X X X独立地由未知真实分布 p data ( X ) p_\text{data}(X) pdata(X)生成, p model ( X ; θ ) p_\text{model}(X;\theta) pmodel(X;θ) θ \theta θ确定的在相同空间上的概率分布,则MLE表示为
θ ^ = arg ⁡ max ⁡ θ L ( X ; θ ) = arg ⁡ max ⁡ θ p model ( X ; θ ) = arg ⁡ max ⁡ θ ∏ i = 1 m p model ( x i ; θ ) ≃ arg ⁡ max ⁡ θ ∑ i = 1 m log ⁡ p model ( x i ; θ ) ≃ arg ⁡ max ⁡ θ E x ∼ p ^ data log ⁡ p model ( x ; θ ) \begin{aligned} \hat\theta &=\arg\max_{\theta}L(X;\theta)=\arg\max_{\theta}p_\text{model}(X;\theta)\\ &=\arg\max_\theta\prod_{i=1}^mp_\text{model}(\pmb x_i;\theta)\\ &\simeq\arg\max_\theta\sum_{i=1}^m\log p_\text{model}(x_i;\theta)\\ &\simeq\arg\max_\theta\Bbb E_{\pmb x\sim\hat p_\text{data}}\log p_\text{model}(\pmb x;\theta) \end{aligned} θ^=argθmaxL(X;θ)=argθmaxpmodel(X;θ)=argθmaxi=1mpmodel(xxxi;θ)argθmaxi=1mlogpmodel(xi;θ)argθmaxExxxp^datalogpmodel(xxx;θ)

MLE可解释为极小化经验分布 p ^ data \hat p_{\text {data}} p^data和模型分布 p model p_{\text{model}} pmodel之间的KL散度,即极小化分布间的交叉熵.


MLE and MSE

条件最大似然损失的一般形式为
J ( θ ) = − E x , y ∼ p ^ data log ⁡ p model ( y ∣ x , θ ) J(\theta)=-\Bbb E_{x,y\sim \hat p_\text {data}}\log p_\text{model}(y|x,\theta) J(θ)=Ex,yp^datalogpmodel(yx,θ)

假设模型分布服从正太分布,即 p model ( y ∣ x ) = N ( y ; f ( x ; θ ) , I ) p_\text{model}(y|x)=\mathcal N(y;f(x;\theta), I) pmodel(yx)=N(y;f(x;θ),I),则添加最大似然等价于MSE
J ( θ ) = 1 2 E x , y ∼ p ^ data ∣ ∣ y − f ( x ; θ ) ∣ ∣ 2 + const J(\theta)=\frac{1}{2}\Bbb E_{x,y\sim\hat p_\text{data}}||y-f(x;\theta)||^2+\text{const} J(θ)=21Ex,yp^datayf(x;θ)2+const

负对数似然损失消除了激活函数的指数效果,消除了饱和性(梯度消失).


Calculus of Variations

变分法直接学习模型表示,而不用给定模型表示再去学习参数.

解第一个优化问题,MSE损失
f ∗ = arg ⁡ min ⁡ f E x , y ∼ p data ∣ ∣ y − f ( x ) ∣ ∣ 2    ⟹    f ∗ ( x ) = E y ∼ p data ( y ∣ x ) [ y ] f^*=\arg\min_f\Bbb E_{x,y\sim p_\text{data}}||y-f(x)||^2\implies f^*(x)=\Bbb E_{y\sim p_\text{data}(y|x)}[y] f=argfminEx,ypdatayf(x)2f(x)=Eypdata(yx)[y]

换句话说,若给定足够多的样本进行训练,最小化MSE将直接得到一个对每个输入 x x x预测出 y y y均值的函数.

解第二个优化问题,平均绝对误差(mean absolute error, MAE)损失
f ∗ = arg ⁡ min ⁡ f E x , y ∼ p data ∣ ∣ y − f ( x ) ∣ ∣ 1 f^*=\arg\min_f\Bbb E_{x,y\sim p_\text{data}}||y-f(x)||_1 f=argfminEx,ypdatayf(x)1

最小化MAE,将直接得到一个可对每个输入 x x x预测 y y y取值的中位数的函数.


Estimation, Bias and Variance

点估计是根据样本集对真实分布参数的估计,可以是给定数据集的任意函数:
θ ^ = g ( X m ) , θ = θ ^ + ϵ \hat\theta=g(X_m),\quad \theta=\hat\theta+\epsilon θ^=g(Xm),θ=θ^+ϵ

输入和目标变量间关系的点估计为函数估计,记为 f ^ \hat f f^. 真实值和函数估计的关系为
y = f ^ ( x ) + ϵ y = \hat{f}(x)+\epsilon y=f^(x)+ϵ

给定样本集 X X X,样本分布偏差的估计量定义为
Bias ( θ ^ ) = E ( θ ^ ) − θ \text{Bias}(\hat\theta)=E(\hat\theta)-\theta Bias(θ^)=E(θ^)θ

  • 无偏性, Bias ( θ ^ m ) = 0 \text{Bias}(\hat\theta_m)=0 Bias(θ^m)=0;
  • 渐进无偏性, lim ⁡ m → ∞ Bias ( θ ^ m ) = 0 \lim_{m\to\infty}\text{Bias}(\hat\theta_m)=0 limmBias(θ^m)=0;

以高斯分布为例,说明参数的估计量:

  • 均值(mean) μ = E ( X ) \mu=E(X) μ=E(X):
    μ ^ = 1 m ∑ i = 1 m x i \hat\mu=\dfrac{1}{m}\sum_{i=1}^m x_i μ^=m1i=1mxi

  • 方差(variance) σ 2 = Var ( X ) = E [ ( X − E ( X ) ) 2 ] \sigma^2=\text{Var}(X)=E[(X-E(X))^2] σ2=Var(X)=E[(XE(X))2]:

    • 有偏方差估计, σ ^ 2 = 1 m ∑ i = 1 m ( x i − μ ^ ) 2 \hat\sigma^2=\dfrac{1}{m}\sum_{i=1}^m(x_i-\hat\mu)^2 σ^2=m1i=1m(xiμ^)2,偏差为 − σ 2 / m -\sigma^2/m σ2/m;
    • 无偏方差估计, σ ~ 2 = m m − 1 σ ^ 2 \tilde\sigma^2=\dfrac{m}{m-1}\hat\sigma^2 σ~2=m1mσ^2;
  • 标准差(standard deviation, SD),亦称为均方差(mean standard deviation, MSD):
    σ ~ = 1 m − 1 ∑ i = 1 m ( x i − μ ^ ) 2 \tilde\sigma=\sqrt{\dfrac{1}{m-1}\sum_{i=1}^m(x_i-\hat\mu)^2} σ~=m11i=1m(xiμ^)2
    样本值偏离样本均值的程度小于偏离总体均值(未知)的程度,方差被低估,分母为 m − 1 m-1 m1以修正.


Standard Error and Machine Learning

均方根误差(root mean squared error, RMSE),亦称为标准误差(standard error, SE),反映样本集的可靠性(测量与真实的差别程度),标准误差越低,样本集越能代表总体,定义为
RMSE = SE = 1 m ∑ i = 1 m ( x i − x ^ i ) 2 \text{RMSE}=\text{SE}=\sqrt{\frac{1}{m}\sum_{i=1}^m(x_i-\hat x_i)^2} RMSE=SE=m1i=1m(xix^i)2

均方误差(mean squared error, MSE)是RMSE的平方,其和偏差、方差的关系:
MSE = E [ ( θ ^ − θ ) 2 ] = ( E ( θ ^ ) − θ ) 2 + E ( θ ^ 2 ) − E ( θ ^ ) 2 = Bias ( θ ^ ) 2 + Var ( θ ^ ) \begin{aligned} \text{MSE} &=E[(\hat\theta-\theta)^2]=(E(\hat\theta)-\theta)^2+E(\hat\theta^2)-E(\hat\theta)^2\\[.5ex] &=\text{Bias}(\hat\theta)^2+\text{Var}(\hat\theta) \end{aligned} MSE=E[(θ^θ)2]=(E(θ^)θ)2+E(θ^2)E(θ^)2=Bias(θ^)2+Var(θ^)

若标准偏差为 σ \sigma σ,容量为m的样本集的均值方差是总体方差的m分之一,因此均值的标准误差为
Var ( μ ^ ) = σ 2 m    ⟹    SE ( u ^ ) = σ m \text{Var}(\hat\mu)=\frac{\sigma^2}{m}\implies \text{SE}(\hat u)=\frac{\sigma}{\sqrt m} Var(μ^)=mσ2SE(u^)=m σ

机器学习领域常用测试集误差的均值估计泛化误差,由中心极限定理知,均值的分布接近高斯分布,因此可用误差均值(误差集的均值)的标准误差估计以误差均值为中心的95%的置信区间:
( μ ^ − 1.96 SE ( μ ^ ) ,   μ ^ + 1.96 SE ( μ ^ ) ) (\hat\mu-1.96\text{SE}(\hat\mu),\ \hat\mu+1.96\text{SE}(\hat\mu)) (μ^1.96SE(μ^), μ^+1.96SE(μ^))

通常说算法A优于算法B,是指算法A误差的95%置信区间上界小于算法B误差的95%置信区间的下界.

  • 样本集容量越大,置信区间范围越窄,样本均值越具有总体均值代表性;
  • 误差均值越小,算法性能越好;
相关推荐
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页