概率论之数理统计的概念

最新推荐文章于 2024-05-16 15:44:43 发布

大龄coder

最新推荐文章于 2024-05-16 15:44:43 发布

阅读量402

点赞数

分类专栏：读书笔记概率论机器学习文章标签：概率论数理统计抽样分布卡方分布 F分布和t分布

本文链接：https://blog.csdn.net/weixin_42341153/article/details/89066002

版权

机器学习同时被 3 个专栏收录

19 篇文章 0 订阅

订阅专栏

读书笔记

17 篇文章 0 订阅

订阅专栏

概率论

6 篇文章 0 订阅

订阅专栏

1.数理统计

“统计学”一词的英文statistics 源于拉丁文的status(国家),意思为国情资料的收集或国情学，一般地说，数理统计这一学科的研究对象是带随机性的教据，很容易把数理统计与一大堆数据和图表联系起来，但这仅仅是数据的初级处理。数据初级处理阶段的统计称之为描述性统计.描述性统计充满了图表,常见于我们日常生活中.随着统计方法的普及，分析数据并进行各种合理的推断成为数理统计研究的中心。用科学的方法提炼数据中的信息,进而对所研究的问题进行推断和预测,称之为统计推断.数理统计学的任务就是,有效地收集、整理、分析这些数据信息,对所观察的现象做出推断或预测，为正确的决策提供依据。
通常的做法就是由部分推断整体，这是数理统计的特点之一；同时，正因为借助小范围提取的信息来推断整体，就不可避免地会使这种推断带来某种不确定性，尽管我们努力设法使统计推断尽可能符合实际情况，但仍然不能保证推断的结果就是客观事实，这是统计推断的第二个特点。
数理统计大致上涉及以下三方面的内容：
1)研究有效地收集数据的方法，以保证数据中尽可能多的真实信息，数理统计中常见的抽样理论和试验设计服务于此目的，
(2)一且收集工作结束，便需要用简单的统计方法组织和解释数据,并用图表将其表示出来,计算一些数值指标以及反映数据的特征，比如平均值、最大(小)值或中位数等，这就是描述性统计，
(3)进一步分析数据中的信息,运用统计推断方法对总体进行推断，这就是统计推断。

2.总体与样本

在统计学中，我们把所研究对象的全体元素组成的集合称为总体或母体，而把组成总体的每个元素称为个体。
单就某个指标特征 $X$ 而言，，每个个体所取的值是不同的。在试验中，抽取若干个体就能观察到指标 $X$ 的不同数值，因而这个特征 $X$ 是一个随机变量(或随机向量 $(X, Y, Z)$ )，而 $X$ 的分布就完全描述了总体中我们所关心的那个指标数量特征的分布情况，因此以后就把总体和数量指标特征 $X$ 可能的所有取值组成的集合等同起来，即总体就是随机变量 $X$ 的取值全体，所谓总体分布就是指标特征 $X$ 的分布，简称总体就是随机变量(向量) $X$ 。
为了对总体的分布规律进行各种研究，就必须对总体抽取多个数据进行观察，一般进行n次观测得到总体指标 $X$ 的一组数值 $x_1,x_2,...,x_n)$ ，其中 $x_i$ 是第 $i$ 次抽样观测的结果， $x_1,x_2,...,x_n)$ 称为容量为n的一个样本，或一次观察值，或一次抽样。
每个容量为n的样本都可视为n维空间的一个点，样本所有可能的取值构成了n维空间的一个子集，称为样本空间 $\Omega$ 。若总体 $X$ 为离散型随机变量，则样本空间 $\Omega$ 为离散的。同理，若总体 $X$ 为连续型随机变量，则样本空间 $\Omega$ 为连续的。
有了总体这个概念，我们就可以将统计推断的基本任务概括为由样本推断总体。由于推断总体实质上是推断总体的分布，即解决一个实际统计问题，往往归结为总体分布的确定，所以我们也常称总体的分布是该问题的统计模型。

3.抽样分布

3.1统计量

用数学的语言说，所谓统计量是一个含未知参数的样本的已知函数。设样本为 $X_1,X_2,...,X_n$ 则统计量通常记为
$W=G(X_1,X_2,...,X_n)$
设 $X_1,X_2,...,X_n$ 为总体 $X$ 的样本，则下列各量均是统计量，它们今后会经常用到。
（1） $\bar{X}=\frac1n\sum_{i=1}^nX_i,\bar{X}$ 称为样本均值。
（2） $S_0^2=\frac1n\sum_{i=1}^n(X_i-\bar{X})^2,S_0^2$ 称为未修正样本方差. $S^2=\frac{n}{n-1}S_0^2$ 称样本方差，
$S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$
（3） $S=\sqrt{S^2}，S$ 称为样本标准差；
（4） $A_k=\frac1n\sum_{i=1}^nX_i^k,A_k$ 称为样本 $k$ 阶原点矩；
（5） $B_k=\frac1n\sum_{i=1}^n(X_i-\bar{X})^k,B_k$ 称为样本 $k$ 阶中心矩；
（6） $S_{XY}=l_{XX}=\frac1n\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})$ 称为样本协方差。
（7） $R=\frac{S_{XY}}{\sqrt{S_X^2S_Y^2}}=\frac{l_{XY}}{\sqrt{l_{XX}l_{YY}}}$

3.2卡方分布

设 $X_1,X_2,...,X_n$ 为相互独立的随机变量，它们都服从标准正态分布 $N (0, 1)$ ，则称随机变量
$Y=\sum_{i=1}^nX_i^2$
服从自由度为n的中心 $\chi^2$ 分布，记作 $Y\sim\chi^2(n)$
性质如下，设 $X\sim\chi^2(n)，则$ ：
（1） $E X = n, D X = 2 n$
（2） $X$ 的密度函数为
$\chi^2(x;n)= \begin{cases} \frac1{2^{\frac{n}2}\Gamma(\frac{n}2)}x^{\frac{n}2-1}e^{-\frac{x}2},& {x>0}\\ 0,& {x\le0} \end{cases}$
其中 $\Gamma(\alpha)$ 称为伽马函数，定义为 $\Gamma(\alpha)=\int_0^{\infty}x^{\alpha-1}e^{-x}dx,\alpha>0$

3.3 t分布和F分布

设 $X\sim{N(0,1)},Y\sim\chi^2(n),X与Y$ 独立，则称随机变量
$T=\frac{X}{\sqrt{Y/n}}$
服从自由度为n的中心t分布，又成学生氏（Student）分布，记成 $T\sim{t(n)}$ ,其密度函数为：
$t(x;n)=\frac{\Gamma(\frac{n+1}2)}{\sqrt{n\pi}\Gamma(\frac{n}2)}(1+\frac{x^2}n)^{-\frac{n+1}2}, -\infty<x<+\infty$

设 $X\sim\chi^2(n_1),Y\sim\chi^2(n_2),X与Y$ 独立，则称随机变量
$F=\frac{X/n_1}{Y/n_2}$
服从自由度为 $n_1,n_2)$ 的F分布，记为 $F\sim{F(n_1,n_2)}$ 其密度函数为
$F(x;n_1,n_2)= \begin{cases} \frac{\Gamma(\frac{n_1+n_2}2)}{\Gamma(\frac{n_1}2)\Gamma(\frac{n_2}2)}(\frac{n_1}{n_2})(\frac{n_1}{n_2}x)^{\frac{n_1}2-1}(1+\frac{n_1}{n_2}x)^{-\frac{n_1+n_2}2},& {x>0}\\ 0,& {x\le0} \end{cases}$

由F定义容易看出，若 $F\sim{F}(n_1,n_2),则1/F\sim{F}(n_2,n_1)$ ，而且有， $T=\frac{X}{\sqrt{Y/n}}\sim{t(n)},则T^2\sim{F}(1,n)$

4正态总体的抽样分布

1

设总体 $X\sim{N(\mu,\sigma^2)},X_1,X_2,...,X_n$ 为总体的样本，则
(1)样本均值 $\bar{X}\sim{N(\mu,\frac{\sigma^2}n)}$
(2) $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1),其中S是样本方差$
(3) $\bar{X}与S^2$ 相互独立

设 $X_1,X_2,...,X_n为出自{N(\mu,\sigma^2)}$ 的子样本，则
$T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim{t(n-1)}$

设 $X_1,X_2,...,X_m, Y_1,Y_2,...,Y_n分别为出自{N(\mu_1,\sigma^2)}和N(\mu_2,\sigma^2)$ 的样本，且它们相互独立，则
(1) $\frac{S^2_X}{S_Y^2}\sim{F(m-1,n-1)}$
(2) $\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S\sqrt{\frac1m+\frac1n}}\sim{t(m+n-2)}$