概率统计——数理统计与描述性统计

最新推荐文章于 2024-09-23 11:20:36 发布

哎呦哥哥、

最新推荐文章于 2024-09-23 11:20:36 发布

阅读量634

点赞数 1

分类专栏：概率论文章标签：概率论数据挖掘

本文链接：https://blog.csdn.net/jm863936705/article/details/106938031

版权

概率论专栏收录该内容

4 篇文章 1 订阅

订阅专栏

$\textbf{概率是用计算概括的常识}。$ ——拉普拉斯

数理统计

以下这些概念，你品，你细品~

名词	符号	概念
总体	$X$	研究对象的全体，通常就是指一个随机变量。
个体	$X_i$	组成总体的每个基本单元
样本	$X_1,X_2,...X_n$	从总体中随机抽取的一部分个体，容量为 $n$
样本容量	$n$	一个样本中个体的数量
样本空间	$\Omega$	随机试验 $E$ 所有可能结果组成的集合
样本点	$\omega$	随机试验 $E$ 的每一个可能结果

举个栗子：

假设准备计算中国人的身高的平均值。
总体就是全部中国人的身高值。
个体就是每一个人的身高值。你的身高值是这次计算的个体，我的也是。

很明显，如果要测量咱们15亿人口的身高有点儿不现实，我们就要随机选出一部分Lucky Dog们，让他们代替我们去测身高，至于用什么方法选，那是抽样的问题，分不同的地区，不同的年龄，不同的性别等等因素来选择。
那么就很好理解：
样本就是那些被选召的孩子们（亚古兽究极进化~）。
样本容量就是被选召的孩子们的数量。此处，切记，样本容量不是样本的数量，而是样本的个体的数量。（《数码宝贝》每一代都有一批被选召的孩子们。）

至于总体和样本空间，小朋友，你是否有很多问号？。貌似度娘也不知道╮(╯▽╰)╭
经过我的细品(●ˇ∀ˇ●)，恍惚间打开了任督二脉：
样本空间和总体，虽说都是一种全部东西的集合的感觉，但是，这个东西是不一样的，样本空间里面的东西是一次随机试验的所有可能结果，总体里面的东西压根儿与随机试验没有半毛钱的关系。真不知道我在纠结什么。
小朋友，如果你没有这个问号，那么你是真的根骨奇佳( •̀ ω •́ )。

对于总体，如果往戏里说（苏三~ 里了洪洞县~）：
可以分为有限总体、无限总体、假想总体，分别送你三个栗子（真的很甜）。
所谓的有限总体，例如考察某厂生产的灯泡的使用寿命，这里的灯泡都是有限的。
所谓的无限总体，例如海水检测，这里的海水其实就是无限的（不要杠）。
所谓的假想总体，例如试验某一治疗流感新药的疗效，最初接受治疗的一批流感患者，不论数量多少，都只是一个样本。若该药疗效得到肯定，从而加以推广，那么此后凡在相同条件下接受该药治疗的所有流感患者，都属于这个总体。可是当初试用时，这个总体还并不存在，是假想的。

样本具有两重性
- 一次具体的抽样后，样本是一组具体的数值；
- 一般叙述中，由于样本的抽样是随机的，所以样本是一组随机变量。
- 一般用 $X_1,X_2,\cdots X_n$ 表示随机样本；
- 随机样本取到的值记为 $x_1,x_2,\cdots x_n$ ，称为样本观测值。

本节的重点就是各种统计量的计算。
统计量包括样本均值、样本方差、 $k$ 阶样本原点矩、 $k$ 阶样本中心距、顺序统计量。
统计量就是对样本进行了一些加工处理，通过这些统计量使得所研究的问题的信息集中起来。
计算统计量，对研究的问题得出结论，这一过程就是统计推断。

统计量	定义及公式	作用
样本均值	设 $X_1,X_2,\cdots X_n$ 是总体 $X$ 的一个简单随机样本，称 $\bar X=\frac {1} {n} \sum_{i=1}^n X_i$ 为样本均值。	①估计总体分布的均值； ②对有关总体分布均值的假设作检验。
样本方差	设 $X_1,X_2,\cdots X_n$ 是总体 $X$ 的一个简单随机样本， $\bar X$ 为样本均值，称 $S^2=\frac {1}{n-1} \sum_{i=1}^n (X_i-\bar X)^2$ 为样本方差。	①估计总体分布的方差； ②对有关总体分布的均值或方差作假设检验。
$k$ 阶样本原点矩	设 $X_1,X_2,\cdots X_n$ 是总体 $X$ 的一个简单随机样本，称 $A_k=\frac {1}{n}\sum_{i=1}^nX_i^k$ 为样本的 $k$ 阶原点矩。（ $k = 1$ 时，相当于样本均值）	估计总体分布的 $k$ 阶原点矩
$k$ 阶样本中心矩	设 $X_1,X_2,\cdots X_n$ 是总体 $X$ 的一个简单随机样本， $\bar X$ 为样本均值，称 $M_k=\frac {1}{n} \sum_{i=1}^n (X_i-\bar X)^k$ 为样本的 $k$ 阶中心矩。	估计总体分布的 $k$ 阶中心矩
顺序统计量	设 $X_1,X_2,\cdots X_n$ 是抽自总体 $X$ 的样本， $x_1,x_2,\cdots x_n$ 为样本观测值。将 $x_1,x_2,\cdots x_n$ 按照从小到大的顺序排列为 $x_{(1)}≤x_{(2)}≤\cdots ≤x_{(n)}$ 定义： $x_{(k)}(k=1,2,\cdots,n)$ 对应的样本个体为 $X_{(k)}$ ，由此得到 $(X_{(1)},X_{(2)},\cdots ,X_{(n)})$ ，称其为样本 $(X_1,X_2,\cdots X_n)$ 的次序统计量。其中， $X_{(k)}$ 称为第 $k$ 个顺序统计量（即它的每次取值总是取每次样本观测值由小到大排序后的第 $k$ 个值）。	①最小顺序统计量： $X_{(1)}=minX_i$ ②最大顺序统计量： $X_{(n)}=maxX_n$

描述性统计

数据集中趋势的度量

	定义及公式	作用
平均数	$\bar x=\frac {1}{n}\sum_{i=1}^nx_i$	表示一组数据集中趋势的量数
中位数	是指一组 $n$ 个数据，排序后，中间位置的数 $m_e=\LARGE \lbrace_{\frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n+1}{2})})，当n为偶数}^{x_{(\frac{n+1}{2})}，当n为奇数}$	①描述数据中心位置的数字特征； $\newline$ ②对称分布的数据：中位数与均值比较接近； $\newline$ ③偏态分布的数据：均值与中位数不同； $\newline$ ④不受异常值影响，具有稳健性。
频数	指同一观测值在一组数据中出现的次数。
众数	指一组数据中出现次数最多的那个数。
百分位数	设 $X_{(1)}≤X_{(2)}≤\cdots ≤X_{(n)}$ 是取自总体 $X$ 的次序统计量，称 $M_p$ 为 $p$ 分位数 $M_p=\LARGE\lbrace_{\frac{1}{2}(X_{(np)}+X_{(np+1)}),若np是整数；}^{X_{([np+1])},若np不是整数；}$

	优点	缺点
均值	充分利用所有数据，适用性强	容易受极端值影响
中位数	不受极端值影响	缺乏敏感性
众数	不受极端值影响；当数据具有明显趋势时，代表性好	缺乏唯一性

数据离散趋势的度量

度量	定义及公式	作用
方差	$s^2=\frac {1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2$	用来计算每一个变量与总体均数之间的差异。
标准差	$S=\sqrt {s^2}=\sqrt {\frac {1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2}$
极差	$R=x_{(n)}-x_{(1)=max(x)-min(x)}$	数据越分散，极差越大
变异系数	也称为标准离差率或单位风险 $CV=100×\frac {s}{\bar x}(\%)$	①刻画数据相对分散的一种度量； $\newline$ ②一般适用于平均值大于0的情况； $\newline$ ③在比较两组数据离散程度大小的时候，如果这两组数据的测量尺度相差太大或者数据量纲不同，变异系数可以削除这种影响。
四分位差	样本上、下四分位数之差称为四分位差（或半极差） $R_1=Q_3-Q_1$	①度量样本分散性； $\newline$ ②对于异常值的数据，它具有稳健性。

分布特征

连续型变量分布函数
设 $X$ 是一个随机变量，对任意的实数 $x$ ，令 $F(x)=P\lbrace{X≤x}\rbrace,x\in (-\infty,+\infty),F(-\infty)=0,F(+\infty)=1,F'(x)≥0$ 则称 $F (x)$ 是随机变量 $X$ 的分布函数（概率累计函数）。
常见的连续型变量的分布函数

连续型分布函数	公式及定义
正态分布(normal distribution) $\newline$ 高斯分布(Gauss distribution)	概率密度函数： $f(x)=\frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty$ 分布函数公式： $F(x)=\frac {1}{\sqrt {2\pi}\sigma}\int _{-\infty}^xe^{-\frac {(x-\mu)^2}{2\sigma^2}}dt,-\infty<x<+\infty$	$X\text{\textasciitilde}N(\mu,\sigma^2)$
标准正态分布	$\mu=0,\sigma=1$ 时的正态分布概率密度函数： $\phi(x)=\frac {1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}}$ 分布函数公式： $\Phi(x)=\frac {1}{\sqrt {2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt$	$X\text{\textasciitilde}N(0,1)$
均匀分布(Uniform)	概率密度函数： $f(x)=\LARGE\lbrace_{0\space \space \space \space \space,其它}^{\frac {1}{b-a},a≤x≤b}$ 分布函数公式： $若X\text{\textasciitilde}[a,b]，则对于满足a≤c＜d≤b的c,d,总有\newline P\lbrace{c≤X≤d}\rbrace=\int_a^bf(x)dx=\frac {d-c}{b-a}$	$X\text{\textasciitilde}[a,b]$
指数分布	概率密度函数： $f(x)=\LARGE \lbrace_{0\space \space \space \space \space \space \space \space \space,x<0}^{\lambda e^{-\lambda x},x≥0},\lambda>0$	$X\text{\textasciitilde}E(\lambda)$

离散型变量概率函数
$P(X=x_i)=p_i,0≤P(x_i)≤1,且\sum_{i=1}^{+\infty}P(x_i)=1$

离散型分布函数	公式及定义
两点分布	设 $E$ 是一个只有两种可能结果的随机试验，用 $\Omega=\lbrace{\omega_1,\omega_2}\rbrace$ 表示其样本空间。 $P(\lbrace{\omega_1}\rbrace)=p,P(\lbrace{\omega_2}\rbrace)=1-p$ $X(\omega)=\LARGE\lbrace_{0,\omega=\omega_2}^{1,\omega=\omega_1}$	$X\text{\textasciitilde}B(p,1-p)$
Bernoulli分布二项分布	设 $A=\lbrace{n重Bernoulli试验中A出现k次}\rbrace$ ，则 $P(A_k)=C_n^kP^k(1-p)^{n-k},k=0,1,2,\cdots,n$	$X\text{\textasciitilde}B(n,p)$
泊松分布	设随机变量 $X$ 所有可能取的值为 $0,1,2,\cdots$ ,则概率分布为 $P\lbrace{X=k}\rbrace=e^{-\lambda} \frac {\lambda^k}{k!},k=0,1,2,\cdots$	$X\text{\textasciitilde}(\lambda)$

偏度与峰度

	定义及公式
偏度(skewness)	也称偏态，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。也就是密度函数曲线尾部的相对长度。 $g_1=\frac {n}{(n-1)(n-2)S^2}\sum_{i=1}^n(x_i-\bar x)^3=\frac {n^2 \mu_3}{(n-1)(n-2)S^3}$
	偏度刻画的是分布函数（数据）的对称性。均值对称的数据其偏度系数为0；右侧更分散的数据偏度系数为正；左侧更分散的数据偏度系数为负。正态分布的偏度为0，两侧尾部长度对称。左偏： 1、若以bs表示偏度，bs＜0称分布具有负偏离，也称左偏态。 2、此时数据位于均值左边的比位于右边的少，直接表现为左边的尾部相对于右边的尾部要长。 3、因为有少数变量值很少，使曲线左侧尾部拖得很长。右偏： 1、若以bs表示偏度，bs＞0称分布具有正偏离，也称右偏态。 2、此时数据位于均值右边的比位于左边的少，直接表现为右边的尾部相对于左边的尾部要长。 3、因为有少数变量值很大，使曲线右侧尾部拖得很长。
峰度(peakedness)	说明的是分布曲线在平均值处峰值高低的特征数。也就是反映了峰部的尖度。 $g_2=\frac {n(n+1)}{(n-1)(n-2)(n-3)S^4}\sum_{i=1}^n(x_i-\bar x)^4-3\frac {(n-1)^2}{(n-2)(n-3)}=\frac {n^2(n+1)\mu_4}{(n-1)(n-2)(n-3)S^4}-3\frac {(n-1)^2}{(n-2)(n-3)}$
	峰度大于3，则峰的形状比较尖，比正态分布要陡峭，反之亦然。峰度刻画的是分布函数的集中和分散程度。