参数估计_算法数学基础-统计学习你应该知道的参数估计概念

我们知道随机事件通过随机变量数学化,而随机变量特征由分布律或分布概率密度函数来表征(离散型随机变量对应分布律,连续型随机变量对应概率密度函数)。但往往我们对总体的分布一无所知,需要通过实验数据展现出来的特征来推测概率模型及模型的参数。统计推断有两类问题,一类叫点估计,一类叫区间估计。从名字上直观就可以理解,点估计是估计参数的具体值,区间估计不光给出值还要给出估计值的可信范围!这里先介绍点估计。

1、点估计:比如我猜到了某个实验的结果数据看上去是一个标准的高斯曲线,但是高斯分布中的均值和方差不知道。这时候怎么办呢?点估计就是告诉你怎么去猜这个均值和方差。为什么用猜呢?因为得到的是一个近似值。点估计有个前提,就是分布函数的形式是已知的,分布函数中的参数未知。例如:假设已知分布为高斯分布,我们要估计高斯分布模型中的均值和方差怎么估计呢?是不是直接想到了用样本值的均值、方差作为参数的近似。想到用样本的均值和方差就叫估计量,是不是思想超级简单?用带参数的分布函数作为模型,用实验的样本数据作为求得近似解,联立方程组求解未知数,剩下的工作就简单了。点估计中常用的两个方法一个是矩估计,一个是最大似然估计(这个名字搞得好像很高大上,其实非常简单的思想)。

1.1 矩估计:矩估计的方法的理论依据是,分布律与分布函数样本的前K阶矩依概率收于总体矩。就是说我可以用样本的矩的值来估计总体矩的值。总体矩可以从概念出发表示成为参数方程组的形式,有多少个参数就列多少个等式。比如有两个参数就是一阶矩和二阶矩的方程组,每个方程左边是从概率形式推导出来的含参数的表达式,方程右边是从样本数据求的具体的值,多少个参数就有多少个方程,所以就可以解方程组得到参数的值!!

1.2 最大似然估计:首先整个方法是针对离散型随机变量适用的,常见的离散型随机变量的分布大家还记得么?(0-1分布,二项分布,泊松分布)如何估计这些分布的参数呢。一个朴素的想法就是找到一组参数去拟合我现在的数据,类似曲线拟合的想法,固定样本不动。将样本出现的概率表示为f1*f2*...fn(参数1,...,参数n)的形式,fn的形式是已知的,样本之间符合独立性假设,这样问题就变换为求这个乘积最大的参数组合。这种形式求最大,可以借助微分学中求最大值的问题了,导数为零。但往往乘积的形式可以通过对数函数变换为和的形式得到(对数形式也叫对数似然方程),看具体的分布函数的形式。如果未知的参数有多个,则变成了分别对参数求偏导数,得到的似然方程组。最大似然法最重要的就是列出最大似然函数,最大似然函数是从假设已知的带参数的分布律或概率密度函数出发的,做一系列等价变换后的最终形式,然后基于这个最终形式求出关心的参数。(这个东西机器学习里面经常出现,建议可以多花点时间理解)

目前参数估计的最基本的两种方法就如上两种,用这个方法有个前提就是我们已经大概猜出来了分布律或者概率密度函数的形式,矩估计适用的范围更广一些,而最大似然估计是针对离散型随机变量而言。一个有趣的结论,最大似然估计的不变性:如果x的函数y=f(x)有单值反函数,则随机变量函数的最大似然估计就是将X的最大似然估计代入直接求。

1.3 估计量评估:上面是求出估计量的一些方法,那么用这些方法求出来的参数怎么评价其近似的效果呢?有三个标准来衡量:

1.3.1、无偏性:就用实际值与理论值进行比较,如果实际值与理论值一致就称为无偏。误差是由估计方法产生的可以看成为系统误差,所以这个可以用来评估估计量有效性,从系统论的角度看一个无偏的估计就是没有系统误差的估计。

1.3.2、有效性:如果找到了两个无偏估计量,那么如何比较它们的优劣呢?有效性就是比较两个无偏估计量的方差,因为方差反映了数据的集中程度,方差越小集中度越高说明质量越好!

1.3.3、相合性:当样本量增加的时候,参数估计量的值应趋近于真实值。

2、区间估计

区间估计稍微复杂一点,就是实际工作中我们不光要做出预测,还需要知道预测的可信度。这时候光点估计就不够了,需要用到区间估计的方法。比如,我要知道明天下不下雨,天气预报不光会给出一个预测说明天下雨,而且要告诉大家下雨的概率是90%还是50%(哈哈哈,50%的预测会让人无所适从)。首先看几个概念:

置信区间:这个用气温预测来比方是比较合适,比如天气预报会说预计明天气温是27-30℃,其实隐藏了一个结论就是说温度在这个区间的可信度为95%(不然也不会报哦),也排除意外不过概率很小。这种预测不会上来说明天气温25℃(不能是一个点),这就是一个标准的区间预测(这就是区间预测的名字由来吧)。其中那个27度叫置信下限,30称为置信上限,而(1-95%)称为置信水平。有上下限的称为双侧置信区间,只有一边的称为单侧置信区间。(数学之所以大家觉得难,就是近代中国对数学的原创贡献太少了,外国人命名的这些概念总是对我们记忆那么不友好,缺乏直观,所以中国的数学家还要加油!)

这个的求解就超级简单了,我们一般会规定可信度,比如我们要求预测一个区间保证准确率在90%以上,这样的话我们就可以根据之前将的各种分布分位点查表求得置信区间了!所以,置信区间是一个反向求解的过程,而且往往都是查表求出来的。基本流程是,找出随机变量的一个无偏估计量,然后依据置信水平的要求查表,最后得到置信区间。所以整个过程是反的,大家可以自己体会一下与点估计有什么不同。

我们求出的置信区间是不是唯一的呢?置信区间最后对应到概率上,我们就知道是不唯一的。想象概率密度函数对应了一条曲线,曲线下的面积对应概率,那么满足概率相同(面积相等)的区间肯定不是唯一的。如何解决这个问题呢,又引入了一个枢轴量的概念,就要找到一个估计量让它不依赖未知参数,从而得到一个确定的置信区间,这个估计量就是枢轴量。

a787b1762a741fbea7d0cb123d946a60.png
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值