数据分析之统计分析基础(4)

最新推荐文章于 2022-01-24 18:24:03 发布

su_n_y_

最新推荐文章于 2022-01-24 18:24:03 发布

阅读量718

点赞数

分类专栏：统计分析文章标签：数据分析统计分析

本文链接：https://blog.csdn.net/sunny1235435/article/details/113799561

版权

统计分析专栏收录该内容

5 篇文章 1 订阅

订阅专栏

本文概述了单变量推断统计中的参数估计方法，包括点估计（如矩估计、极大似然估计、最大后验概率估计）与区间估计（如枢轴变量法和大样本法），并重点介绍了贝叶斯估计、最大似然估计和最大后验概率估计的区别与应用场景。

摘要由CSDN通过智能技术生成

文章目录

单变量推论统计

单变量推论统计

在实际的社会调查中，普查的方式使用很少，通常是使用抽样调查的方式。而单变量推论统计的目的，就是通过样本调查中所得到的数据资料，对总体的状况进行推断。可以从区间估计和假设检验两个方面进行。

概率（probabilty）和统计（statistics） 看似两个相近的概念，其实研究的问题刚好相反。概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。统计是有一堆数据，要利用这堆数据去预测模型和参数。概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。概率论是数理统计学的基础，数理统计学是概率论的重要应用。

统计学中有两个大的学派：频率学派(也称经典学派)和贝叶斯学派。众所周知统计推断是根据样本信息对总体分布或者是总体特征数进行推断，经典学派和贝叶斯学派就是通过统计推断的不同方式划分的，经典学派的统计推断是依据样本信息和总体信息来进行推断，而贝叶斯学派认为除了依据以上两种信息来进行推断以外还可以应该加上先验信息来进行统计推断。

样本信息：
样本信息即抽取样本观测其值所得到的信息，我们希望用样本信息来对总体特征进行推断，样本信息越多我们推断总体也就越是准确。
总体信息：
总体信息即总体分布或者总体分布族所提供的信息，如果知道某个随机变量服从某个分布就可以根据这个分布来进行统计推断。
先验信息：
如果把抽取样本看做是一次随机试验，那么样本信息就是试验中得到的信息，但是往往我们在研究某些问题之前总要对研究的问题有所了解，这种了解包括经验上的了解即过去是否存在过同样的问题或者是关于同样问题的一些历史样本，这研究问题之前就能够了解到的信息就叫做先验信息，贝叶斯学派认为’历史经验’也能够在一定程度上面帮助我们进行统计推断。

贝叶斯学派与经典学派最大的不同之处在于其认为统计推断过程具有一种连续性，也即用历史的眼光看待问题，用发展的角度看待问题，他们认为过去的事情与现在的事情是有联系的或者是过去的样本与现在的样本是有联系的，能够运用历史经验来修正经典学派基于现有经验的统计推断。

贝叶斯学派的基本观点是：任一未知统计量 $\theta$ 都可以看做一个随机变量也即我们需要推断的总体的某个特征服从某个分布，这也就是说我们可以根据先验信息建立一个 $\theta$ 服从的分布，这样做的目的就在于合理的利用先验信息来进行统计推断。

参数估计（parameter estimation）

参数估计（点估计和区间估计）

点估计

当我们想知道某一总体的某个指标的情况时，测量整体该指标的数值的工作量太大或者不符合实际，这时我们可以采用抽样的方法选取一部分样本测量出他们数值，然后用样本统计量的值来估计总体的情况。

常用的点估计有：用样本均值估计总体均值、用样本方差估计总体方差、用样本的分位数估计总体的分位数、用样本的中位数估计总体的中位数。

点估计方法：矩估计法、极大似然估计、最大后验概率估计、贝叶斯估计。

参考文章：
贝叶斯估计、最大似然估计、最大后验概率估计
 详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
 【数学基础】参数估计之极大似然估计
 【数学基础】参数估计之最大后验估计（Maximum A Posteriori，MAP）
【数学基础】参数估计之贝叶斯估计
 数学漫步——贝叶斯估计思想

矩估计法

用样本矩估计总体矩，用样本矩函数估计总计矩函数。优点：不要求知道总体的分布。缺点：不唯一。

贝叶斯公式

贝叶斯公式： $p(w|x)=\frac{p(x|w)p(w)}{p(x)}$

$p (w)$ 为先验概率，表示每种类别分布的概率； $p (x ∣ w)$ 为类条件概率，表示在某种类别前提下，某事发生的概率； $p (w ∣ x)$ 为后验概率，表示某事发生了，并且它属于某一类别的概率。后验概率越大，说明某事物属于这个类别的可能性越大，我们越有理由把它归到这个类别下。贝叶斯公式就是在描述，你有多大把握能相信一件证据？（how much you can trust the evidence）。做判断的时候，要考虑所有的因素。一个本来就难以发生的事情，就算出现某个证据和他强烈相关，也要谨慎。证据很可能来自别的虽然不是很相关，但发生概率较高的事情。

但是在实际问题中我们能获得的数据可能只有有限数目的样本数据，而先验概率 $p (w)$ 和类条件概率(各类的总体分布) $p (x ∣ w)$ 都是未知的。根据仅有的样本数据进行分类时，一种可行的办法是我们需要先对先验概率和类条件概率进行估计，然后再套用贝叶斯分类器。

先验概率的估计较简单：
1、每个样本所属的自然状态都是已知的（有监督学习）；
2、依靠经验；
3、用训练样本中各类出现的频率估计。

类条件概率的估计非常难，原因包括：
1、概率密度函数包含了一个随机变量的全部信息；
2、样本数据可能不多；
3、特征向量 $x$ 的维度可能很大等等。

极大似然估计(Maximum Likelihood Estimation, 简称MLE)

概率最大的事件，最可能发生。其实我们生活中无时无刻不在使用这种方法，只是不知道它在数学中是如何确定或者推导的。而在数理统计中，它有一个专业的名词：极大似然估计，也叫最像估计法（最可能估计法）。似然(likelihood)，似然函数是在"已知"样本随机变量 $X$ 的情况下，估计参数空间中的参数 $\theta$ 的值。要求分布有参数形式。

对于似然函数： $P(x|\theta)$ 输入有两个： $x$ 表示某一个具体的数据； $\theta$ 表示模型的参数。如果 $\theta$ 是已知确定的， $x$ 是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点 $x$ ，其出现概率是多少。如果 $x$ 是已知确定的， $\theta$ 是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现 $x$ 这个样本点的概率是多少。

最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

重要前提：
1、训练样本的分布能代表样本的真实分布。
2、每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)，
3、且有充分的训练样本。
最大似然原理
原理：
极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

计算过程：
设总体有分布 $f(x;\theta_1,\dots,\theta_k)$ ， $X_1,\dots,X_n$ 为这个总体中抽出的样本，那么样本 $(X_1,\dots,X_n)$ 的分布为 $f(x_1;\theta_1,\dots,\theta_k)\dots f(x_k;\theta_1,\dots,\theta_k)$

记为 $L(x_1,\dots,x_n;\theta_1,\dots,\theta_k)$ .

固定 $\theta_1,\dots,\theta_k$ ，看作 $x_1,\dots,x_n$ 的函数时， $L$ 为一个概率密度函数。

当固定 $x_1,\dots,x_n$ ，看作 $\theta_1,\dots,\theta_k$ 的函数时，为似然函数。当已经观察到 $X_1,\dots,X_n$ 时，若 $L(x_1,\dots,x_n;\theta_1^{'},\dots,\theta_k^{'})>L(x_1,\dots,x_n;\theta_1^{''},\dots,\theta_k^{''})$ ，则被估计的参数 $(\theta_1,\dots,\theta_k)$ 是 $\theta_1^{'},\dots,\theta_k^{'}$ 的可能性要比是 $\theta_1^{''},\dots,\theta_k^{''}$ 的可能性大。

应用似然程度最大的点 $\theta_1^{*},\dots,\theta_k^{*}$ ，即满足条件 $L(x_1,\dots,x_n;\theta_1^{*},\dots,\theta_k^{*})=\max\limits_{\theta_1,\dots,\theta_k}L(x_1,\dots,x_n;\theta_1,\dots,\theta_k)$ 的 $(\theta_1^{*},\dots,\theta_k^{*})$ 作为 $(\theta_1,\dots,\theta_k)$ 的估计值。即“看起来最像”。

另计算：
$lnL=\sum_{i=1}^{n}{lnf(X_i;\theta_1,\dots,\theta_k)}$
且为了使 $L$ 达到最大，只需要使 $l n L$ 达到最大。故连续偏导后： $\frac{\partial lnL}{\partial \theta_i}=0,i=1,\dots,k$
求出唯一解。

最大后验概率估计(Maximum a Posteriori Probability, 简称MAP)

在极大似然估计中， $\theta_i$ 是一个待估参数，其本身是确定的，即使目前未知。与极大似然估计不同的是，MAP将参数 $\theta_i$ 看作一个随机变量。MAP考量的是事件集 $X_1,\dots,X_n$ 已经发生了，那在事件集发生的情况下，哪个 $\theta_i$ 发生的概率最大。即 $p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}$

在最大似然估计中，参数 $\theta$ 是一个定值，只是这个值未知，最大似然函数是 $\theta$ 的函数，这里 $\theta$ 是没有概率意义的。但是，在最大后验估计中， $\theta$ 是有概率意义的， $\theta$ 有自己的分布，而这个分布函数，需要通过已有的样本集合 $X$ 得到，即最大后验估计需要计算的是 $p(\theta|X)$ .

计算：
$p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}$ 这个公式中，参数 $\theta$ 是关于集合 $X$ 的后验概率，要使得后验概率最大，求导。 $\hat{\theta}_{MAP}=arg\max\limits_{\theta}p(\theta|X)=arg\max\limits_{\theta}p(\theta)p(X|\theta)$

求梯度：
$\frac{p(\theta|X)}{\partial\theta}=\frac{p(\theta)p(X|\theta)}{\partial\theta}=0$
MAP和MLE的区别是：MAP是在ML的基础上加上了 $p(\theta)$ , $p(\theta)$ 称为 $\theta$ 的先验概率。

贝叶斯估计

核心问题：
这里定义已有的样本集合 $X$ 。样本集合 $X$ 中的样本都是从一个固定但是未知的概率密度函数 $p(\theta)$ 中独立抽取出来的，要求根据这些样本估计 $x$ 的概率分布，记为 $p(\theta|X)$ ，并且使得 $p(\theta|X)$ 尽量的接近 $p(\theta)$ ，这就是贝叶斯估计的核心问题。

贝叶斯公式的密度函数形式：
$p(x|\theta)$ 表示随机变量 $\theta$ 给定某个值时， $X$ 的条件密度函数；根据参数 $\theta$ 的先验信息确定先验分布 $\pi(\theta)$ ；

贝叶斯的观点，样本 $X=(X_1,X_2,\dots,X_n)$ 的产生要分为两步进行。一、设想从先验分布 $\pi(\theta)$ 产生一个样本 $\theta^{'}$ ；二、从 $p(x|\theta^{'})$ 中产生一个样本 $X$ 。这时样本的联合条件密度函数为： $p(X|\theta^{'})=p(x_1,\dots,x_n|\theta^{'})=\prod_{i=n}^{n}{p(x_i|\theta^{'})}$

这个联合分布综合了总体信息和样本信息，称为似然函数。

由于 $\theta^{'}$ 是设想出来的，仍然时未知的，它是按先验分布 $\pi(\theta)$ 产生的。为了把先验信息综合进去，不能只考虑 $\theta^{'}$ ，对 $\theta$ 的其他值发生的可能性也要加以考虑，故要用 $\pi(\theta)$ 进行综合。这样一来，样本 $X$ 和参数 $\theta$ 的联合分布为 $h(x,\theta)=p(x|\theta)\pi(\theta)$

这个联合分布把三种可用信息都综合进去了。

对未知参数 $\theta$ 作统计推断，在没有样本信息时，只能依据先验分布 $\pi(\theta)$ 对 $\theta$ 作出推断。在有了样本观察值 $x=(x_1,\dots,x_n)$ 之后，应依据 $h(x,\theta)$ 对 $\theta$ 作出推断。 $h(x,\theta)=\pi(x|\theta)m(\theta)$

其中 $m(\theta)$ 是 $X$ 的边缘密度函数： $m(\theta)=\int_{\theta}{h(x,\theta)}d\theta=\int_{\theta}{p(x|\theta)\pi(\theta)}d\theta$

于是贝叶斯公式的密度函数形式为： $\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{\theta}{p(x|\theta)\pi(\theta)}d\theta}$

常用方法：
$\pi(\theta|x)$ 被称作后验分布（后验概率），使用它估计 $\theta$ 有三种常用的方法：
1、使用后验分布的密度函数最大值点作为 $\theta$ 的点估计的最大后验估计（MAP）。
2、使用后验分布的中位数作为 $\theta$ 的点估计的后验中位数估计（基本没看到用过）。
3、使用后验分布的均值作为 $\theta$ 的点估计的后验期望估计。
用的最多的是后验期望估计，它一般也直接简称为贝叶斯估计，即为 $\hat{\theta}_{B}$ .

贝叶斯估计 $\hat{\theta}_{B}$ ：
在这里插入图片描述

贝叶斯估计的本质是通过贝叶斯决策得到参数 $\theta$ 的最优估计，使得总期望风险最小。
定理：
设 $\theta$ 的后验密度为 $\pi(\theta|x)$ ，则后验期望估计 $\hat{\theta}_{B}$ 使得均方误差达到最小。

区间估计

参考书目：《概率论与数理统计_陈希孺》p174
区间估计就是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到，是指在一定的标准差范围内设立一个置信区间，然后联系这个区间的可信度将样本统计值推论为总体参数值。它的实质是在一定的置信度下，用样本统计值的某个范围来“框”住总体的参数值，即以两个数值之间的间距来估计参数值。

给定一个很小的数 $\alpha>0$ , 如果对于参数 $\theta$ 的任何值，概率式 $P\{\theta_{1}(x_1,x_2,\dots,x_n) \leqslant \theta_{2}(x_1,x_2,\dots,x_n) \}$ 都等于 $1-\alpha$ , 则称区间估计 $[\theta_1, \theta_2]$ 的置信系数为 $1-\alpha$ . 因此区间估计也常常被称为置信区间。

**上分为点：**以 $\Phi(x)$ 记为 $N (0, 1)$ 的分布函数，对 $0<\beta<1$ ，用方程 $\Phi(u_{\beta})=1-\beta$ 定义记号 $u_{\beta}$ . $u_{\beta}$ 称为分布 $N (0, 1)$ 的上 $\beta$ 分位点。其意义是： $N (0, 1)$ 分布中大于 $u_{\beta}$ 的那部分概率就是 $\beta$ . $\Phi(-t)=1-\Phi(t)$
参考文章：
[推断统计] 求区间估计：枢轴量法

枢纽变量法

例子说明：
设 $X_1,\dots,X_n$ 为抽自正态总体 $N(\mu,\sigma^2)$ 的样本， $\sigma^2$ 已知，求 $\mu$ 的区间估计。
1、先找一个 $\mu$ 的良好的点估计，选择样本均值 $\overline{X}$ .
2、由总体为正态可知： $\sqrt{n}(\overline{X}-\mu)/\sigma\sim N(0,1)$

3、有： $P(-u_{\alpha/2}\leq \sqrt{n}(\overline{X}-\mu)/\sigma\leq u_{\alpha/2}) =\Phi(u_{\alpha/2})-\Phi(-u_{\alpha/2}) =1-\alpha$

4、得到区间估计： $P(\overline{X}-\sigma u_{\alpha/2}/\sqrt{n} \leq \mu \leq \overline{X}+\sigma u_{\alpha/2}/\sqrt{n}) = 1-\alpha$

$[\hat{\theta}_{1},\hat{\theta}_{2}]=[ \overline{X}-\sigma u_{\alpha/2}/\sqrt{n}, \overline{X}+\sigma u_{\alpha/2}/\sqrt{n}]$

步骤：
1、找一个与要估计参数 $g(\theta)$ 有关的统计量 $T$ ，一般是其一个良好的点估计；
2、设法找出 $T$ 和 $g(\theta)$ 的某一函数 $S(T,g(\theta))$ , 其分布 $F$ 要与 $\theta$ 无关。则 $S(T,g(\theta))$ 称为枢纽变量。
3、对任何常数 $a < b$ ，不等式 $a<S(T,g(\theta))<b$ 要能改写为等价的形式： $A<g(\theta)<B$ , $A, B$ 只与 $T, a, b$ 有关，而与 $\theta$ 无关。
4、取分布 $F$ 的上 $\alpha/2$ 分位点 $w_{\alpha/2}$ 和 $1-\alpha/2$ 分位点 $w_{1-\alpha/2}$ ，则有 $F(w_{\alpha/2})-F(w_{1-\alpha/2})=1-\alpha$ ，因此 $P(w_{1-\alpha/2}\leq S(T,g(\theta))\leq w_{\alpha/2})=1-\alpha$

不等式改写，得到 $[A, B]$ 区间，该区间就是 $g(\theta)$ 的一个置信系数为 $1-\alpha$ 的区间估计。

大样本法

利用极限分布，主要是中心极限定理，来建立枢纽变量。近似满足枢纽变量的条件。

例子说明：
某事件 $A$ 在每次试验中发生的概率为 $p$ . 做 $n$ 次独立试验，以 $Y_n$ 记 $A$ 发生的次数，求 $p$ 的区间估计。
根据定理：设 $X_1,\dots,X_n$ 独立同分布， $X_i$ 的分布是 $P(X_i=1)=p,P(X_i=0)=1-p ,(0<p<1)$ . 则对任何实数 $x$ , 有 $\lim\limits_{n\rightarrow \infty }P(\frac{1}{\sqrt{np(1-p)}}(X_1+\dots+X_n-np)\leq x )=\Phi(x)$

可知： $(Y_n-np)/\sqrt{np(1-p)}\sim N(0,1)$
于是枢纽变量为 $(Y_n-np)/\sqrt{np(1-p)}\sim N(0,1)$ .
由： $P(-u_{\alpha/2}\leq (Y_n-np)/ \sqrt{np(1-p)}\leq u_{\alpha/2})\approx 1-\alpha$ ,
可改写为： $P(a\leq p \leq B)\approx 1-\alpha$ ,
其中 $A$ 和 $B$ 是二次方程 $(Y_n-np)^2/\sqrt{np(1-p)}=u^{2}_{\alpha/2}$ 的两个根。
解为： $A,B=\frac{n}{n+u^{2}_{\alpha/2}}(\hat{p}+\frac{u^{2}_{\alpha/2}}{2n}\pm u_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}+\frac{u^{2}_{\alpha/2}}{4n^2}})$ ，其中 $\hat{p}=Y_n/n$ 。

分析： 得到的结果为近似的，故区间估计的置信系数也之时近似地等于 $1-\alpha$ 。

置信界

单侧置信区间，只关心某一侧的界限。特殊的置信区间，无非是一侧变成 $\infty$ 或 $-\infty$
定义：设 $X_1,\dots,X_n$ 是从某一总体中抽出来的样本，总体分布包含未知参数 $\theta$ , $\overline{\theta}=\overline{\theta}(X_1,\dots,X_n)$ 和 $\underline{\theta}=\underline{\theta}(X_1,\dots,X_n)$ 都是统计量（它们与 $\theta$ 无关），则
1、若对 $\theta$ 的一切可取的值，有 $P_0(\overline{\theta}=\overline{\theta}(X_1,\dots,X_n)\geq\theta)=1-\alpha$ ,则称 $\overline \theta$ 是 $\theta$ 的一个置信系数为 $1-\alpha$ 的置信上界；
2、若对 $\theta$ 的一切可取的值，有 $P_0(\underline{\theta}=\underline{\theta}(X_1,\dots,X_n)\leq\theta)=1-\alpha$ ,则称 $\underline\theta$ 是 $\theta$ 的一个置信系数为 $1-\alpha$ 的置信下界。

贝叶斯法

在有了先验分布密度 $h(\theta)$ 和样本 $KaTeX parse error: Undefined control sequence: \X at position 11: X_1,\dots,\̲X̲_n$ 后，算出后验密度 $h(\theta |X_1,\dots,X_n)$ . 再找两个数 $\hat {\theta}_1$ 和 $\hat {\theta}_2$ 都与 $KaTeX parse error: Undefined control sequence: \X at position 11: X_1,\dots,\̲X̲_n$ 使得 $\int_{\hat {\theta}_1}^{\hat {\theta}_2}{h(\theta|X_1,\dots,X_n)}d\theta=1-\alpha$

那么区间 $[\hat {\theta}_1,\hat {\theta}_2]$ 的意思是：在所得后验分布下， $\theta$ 落在这个区间内的概率为 $1-\alpha$ .

假设检验

假设检验就是先对总体的某一参数做出假设，然后用样本的统计量去进行验证，以决定假设是否被总体所接受。
步骤：
1、建立假设
原假设 $H_{0}$ 和备择假设 $H_{1}$
2、寻找检验估计量
检验统计量来判断原假设的真伪
检验的临界值 $c$ ，拒绝原假设的样本观测值所组成的区域称为检验的拒绝域 $W$ ，保留原假设的样本观测值所组成的区域称为检验的接受域 $A$ 。
3、显著性水平与临界值
$H_{0}$ 为真但被拒绝的概率称为显著性水平 $\alpha$ ；由此计算 $c$ 值
4、做判断
两类错误
第一类错误：原假设 $H_{0}$ 为真，所下的判断为拒绝 $H_{0}$ 。犯第一类错误的概率为拒真概率，也就是显著性水平 $\alpha$ .
第二类错误：原假设 $H_{0}$ 为假，所下的判断为接受 $H_{0}$ 。犯第二类错误的概率为取伪概率 $\beta$ .
总是希望 $\alpha$ 和 $\beta$ 都很小，尽量是样本容量增大。
检验
检验就是指判断准则。
具体检验方法往后分析（往后章节）。

su_n_y_

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据分析之统计分析基础(4)

文章目录单变量推论统计参数估计（parameter estimation）点估计区间估计假设检验单变量推论统计在实际的社会调查中，普查的方式使用很少，通常是使用抽样调查的方式。而单变量推论统计的目的，就是通过样本调查中所得到的数据资料，对总体的状况进行推断。可以从区间估计和假设检验两个方面进行。参数估计（parameter estimation）https://blog.csdn.net/weixin_43992800/article/details/100576931点估计当我们想知道某一总
复制链接

扫一扫

专栏目录