参数估计方法简介

最新推荐文章于 2023-12-26 01:56:57 发布

weixin_30521161

最新推荐文章于 2023-12-26 01:56:57 发布

阅读量1.8k

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/SshunWang/p/11135919.html

版权

1.参数估计和非参数估计

　　前面提到随机变量的分布不是很明确时，我们需要先对随机变量的分布进行估计。有一种情况是我们知道变量分布的模型，但是具体分布的参数未知，我们通过确定这些未知参数就可以实现对变量的估计，这种方式就是参数估计。其中，比较基础且常见的参数估计方法有最大似然估计、最小二乘估计以及最大后验概率估计。

2.最大似然估计

　　给出随机变量$X(x1,x2,x3...)$以及它的独立采样统计$Y(y1,y2,y3...)$，且已知X的分布是$f(\theta)$，这里我们可以把变量X的分布看作关于$\theta$的函数，即一组参数值$\theta$确定一个X的分布函数，我们要求的参数$\theta$应使得分布函数最贴近Y。那么如何表示这一点呢？对于最大似然估计，那就是以$\theta$为参数时，对X的估计结果恰好是$Y(y1,y2,y3...)$的总概率最大！我们由此构建了关于$\theta$的似然函数，用$L(\theta)$表示似然函数，用$p(x_{i}|\theta)$表示估计结果恰好为$y_{i}$的概率，有：$$L(\theta) = \prod_{i=1}^{n} p(x_{i}|\theta)$$

　　注意前面提到了统计结果是独立的，所以总概率等于分概率相乘。对于连乘，通常采用取对数的方式做变换达到相近的结果：$$\widehat(L)(\theta) = \sum_{i=1}^{n} ln(p(x_{i}|\theta))$$

　　上式也叫对数似然函数，当我们要求参数时，只需要对似然函数关于参数的求导并置0，解方程组即可得到目标参数。

3.最小二乘法

　　最小二乘法和最大似然估计的不同点在于，它认为待估计的参数应使得对X的预测和X的实际分布整体的“距离”最小。即求$\theta$满足：$$\theta = argmin \sum_{i = 1}^{n} (f(x_{i}|\theta) - y_{i})^2$$

　　对于参数的求取我们同样可以转化为一阶导数为0的解，或者梯度下降发迭代求解。对于线性估计和非线性估计还有一些区别，本篇随笔只是简介，我会单独写一个关于最小二乘法的（完了，又一个坑）。

4.最大后验概率估计

　　提到最大后验概率，首先想起的就是贝叶斯估计，是的，最大后验概率是贝叶斯统计学说里面的。贝叶斯统计理论认为，对事物的观测结果可能根据观测角度、观测方法、样本的大小而不一样，因此直接通过统计对随机变量进行建模可能会引入误差，所以需要引入“先验知识”即先验概率。观察似然函数：$$L(\theta) = \prod_{i=1}^{n} p(x_{i}|\theta)$$

　　如果我们已知$\theta$的分布$p(\theta)$：$$L(\theta) = \prod_{i=1}^{n} \frac{p(\theta|x_{i})p(\theta)}{p(x_{i})}$$

　　又分母与$\theta$无关，所以有：$$\theta = argmax \prod_{i=1}^{n} p(\theta|x_{i})p(\theta)$$

　　同样可以取对数似然：$$\theta = argmax \sum_{i=1}^{n} (ln(p(\theta|x_{i})) + ln(p(\theta))$$

　　最大后验概率和最大似然估计不一样的是，其追求$p(x_{i}|\theta)p(\theta)$的最大化，即保证预测尽可能接近分布的同时，$\theta$本身的概率也最大，感觉是给似然函数增加了“约束项”，不过是以乘法的形式。

转载于:https://www.cnblogs.com/SshunWang/p/11135919.html