数理统计（参数估计、方差估计、偏差）

最新推荐文章于 2024-07-16 13:12:21 发布

十里清风

最新推荐文章于 2024-07-16 13:12:21 发布

阅读量4.7k

点赞数 1

分类专栏：概率论与数理统计机器学习文章标签：概率论机器学习

本文链接：https://blog.csdn.net/sinat_34072381/article/details/105833574

版权

机器学习同时被 2 个专栏收录

23 篇文章

订阅专栏

概率论与数理统计

2 篇文章

订阅专栏

文章目录

Bootstrapping
Maximum Likelihood Estimation
Estimation, Bias and Variance
Standard Error and Machine Learning

Bootstrapping

含有m个样本的数据集，有放回采样，样本不被采样到的概率
$\lim_{m\to\infty}(1-\frac{1}{m})^m=\frac{1}{e} \simeq 0.368$

利用少量样本或初始种子集合训练一个初始分类器，对未标注数据进行分类，并将置信度较大的样本加入已标注数据，重复上述过程直至获得较精确的分类器.

分类错误的样本在自我训练过程中不断放大，导致分类器自学习失败. 初始种子集和新标注实例的筛选尤其重要.

Maximum Likelihood Estimation

已知训练集总体概率分布，估计分布参数使样本集最可能出现，称之为极大似然估计(MLE).

考虑样本集 $X$ 独立地由未知真实分布 $p_\text{data}(X)$ 生成， $p_\text{model}(X;\theta)$ 为 $\theta$ 确定的在相同空间上的概率分布，则MLE表示为
$\begin{aligned} \hat\theta &=\arg\max_{\theta}L(X;\theta)=\arg\max_{\theta}p_\text{model}(X;\theta)\\ &=\arg\max_\theta\prod_{i=1}^mp_\text{model}(\pmb x_i;\theta)\\ &\simeq\arg\max_\theta\sum_{i=1}^m\log p_\text{model}(x_i;\theta)\\ &\simeq\arg\max_\theta\Bbb E_{\pmb x\sim\hat p_\text{data}}\log p_\text{model}(\pmb x;\theta) \end{aligned}$

MLE可解释为极小化经验分布 $\hat p_{\text {data}}$ 和模型分布 $p_{\text{model}}$ 之间的KL散度，即极小化分布间的交叉熵.

MLE and MSE

条件最大似然损失的一般形式为
$J(\theta)=-\Bbb E_{x,y\sim \hat p_\text {data}}\log p_\text{model}(y|x,\theta)$

假设模型分布服从正太分布，即 $p_\text{model}(y|x)=\mathcal N(y;f(x;\theta), I)$ ，则添加最大似然等价于MSE
$J(\theta)=\frac{1}{2}\Bbb E_{x,y\sim\hat p_\text{data}}||y-f(x;\theta)||^2+\text{const}$

负对数似然损失消除了激活函数的指数效果，消除了饱和性（梯度消失）.

Calculus of Variations

变分法直接学习模型表示，而不用给定模型表示再去学习参数.

解第一个优化问题，MSE损失
$f^*=\arg\min_f\Bbb E_{x,y\sim p_\text{data}}||y-f(x)||^2\implies f^*(x)=\Bbb E_{y\sim p_\text{data}(y|x)}[y]$

换句话说，若给定足够多的样本进行训练，最小化MSE将直接得到一个对每个输入 $x$ 预测出 $y$ 均值的函数.

解第二个优化问题，平均绝对误差(mean absolute error, MAE)损失
$f^*=\arg\min_f\Bbb E_{x,y\sim p_\text{data}}||y-f(x)||_1$

最小化MAE，将直接得到一个可对每个输入 $x$ 预测 $y$ 取值的中位数的函数.

Estimation, Bias and Variance

点估计是根据样本集对真实分布参数的估计，可以是给定数据集的任意函数:
$\hat\theta=g(X_m),\quad \theta=\hat\theta+\epsilon$

输入和目标变量间关系的点估计为函数估计，记为 $\hat f$ . 真实值和函数估计的关系为
$\hat{f}(x)+\epsilon$

给定样本集 $X$ ，样本分布偏差的估计量定义为
$\text{Bias}(\hat\theta)=E(\hat\theta)-\theta$

无偏性， $\text{Bias}(\hat\theta_m)=0$ ;
渐进无偏性， $\lim_{m\to\infty}\text{Bias}(\hat\theta_m)=0$ ;

以高斯分布为例，说明参数的估计量：

均值(mean)， $\mu=E(X)$ :
$\hat\mu=\dfrac{1}{m}\sum_{i=1}^m x_i$
方差(variance)， $\sigma^2=\text{Var}(X)=E[(X-E(X))^2]$ :
- 有偏方差估计， $\hat\sigma^2=\dfrac{1}{m}\sum_{i=1}^m(x_i-\hat\mu)^2$ ，偏差为 $-\sigma^2/m$ ;
- 无偏方差估计， $\tilde\sigma^2=\dfrac{m}{m-1}\hat\sigma^2$ ;
标准差(standard deviation, SD)，亦称为均方差(mean standard deviation, MSD):
$\tilde\sigma=\sqrt{\dfrac{1}{m-1}\sum_{i=1}^m(x_i-\hat\mu)^2}$
样本值偏离样本均值的程度小于偏离总体均值（未知）的程度，方差被低估，分母为 $m - 1$ 以修正.

Standard Error and Machine Learning

均方根误差(root mean squared error, RMSE)，亦称为标准误差(standard error, SE)，反映样本集的可靠性（测量与真实的差别程度），标准误差越低，样本集越能代表总体，定义为
$\text{RMSE}=\text{SE}=\sqrt{\frac{1}{m}\sum_{i=1}^m(x_i-\hat x_i)^2}$

均方误差(mean squared error, MSE)是RMSE的平方，其和偏差、方差的关系：
$\begin{aligned} \text{MSE} &=E[(\hat\theta-\theta)^2]=(E(\hat\theta)-\theta)^2+E(\hat\theta^2)-E(\hat\theta)^2\\[.5ex] &=\text{Bias}(\hat\theta)^2+\text{Var}(\hat\theta) \end{aligned}$

若标准偏差为 $\sigma$ ，容量为m的样本集的均值方差是总体方差的m分之一，因此均值的标准误差为
$\text{Var}(\hat\mu)=\frac{\sigma^2}{m}\implies \text{SE}(\hat u)=\frac{\sigma}{\sqrt m}$

机器学习领域常用测试集误差的均值估计泛化误差，由中心极限定理知，均值的分布接近高斯分布，因此可用误差均值（误差集的均值）的标准误差估计以误差均值为中心的95%的置信区间：
$(\hat\mu-1.96\text{SE}(\hat\mu),\ \hat\mu+1.96\text{SE}(\hat\mu))$