概率统计——数理统计与描述性统计

概率是用计算概括的常识 。 \textbf{概率是用计算概括的常识}。 概率是用计算概括的常识——拉普拉斯

数理统计

以下这些概念,你品,你细品~

名词符号概念
总体 X X X研究对象的全体,通常就是指一个随机变量。
个体 X i X_i Xi组成总体的每个基本单元
样本 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn从总体中随机抽取的一部分个体,容量为 n n n
样本容量 n n n一个样本中个体的数量
样本空间 Ω \Omega Ω随机试验 E E E所有可能结果组成的集合
样本点 ω \omega ω随机试验 E E E的每一个可能结果

举个栗子:

假设准备计算中国人的身高的平均值。
总体就是全部中国人的身高值。
个体就是每一个人的身高值。你的身高值是这次计算的个体,我的也是。

很明显,如果要测量咱们15亿人口的身高有点儿不现实,我们就要随机选出一部分Lucky Dog们,让他们代替我们去测身高,至于用什么方法选,那是抽样的问题,分不同的地区,不同的年龄,不同的性别等等因素来选择。
那么就很好理解:
样本就是那些被选召的孩子们(亚古兽究极进化~)。
样本容量就是被选召的孩子们的数量。此处,切记,样本容量不是样本的数量,而是样本的个体的数量。(《数码宝贝》每一代都有一批被选召的孩子们。)

至于总体和样本空间,小朋友,你是否有很多问号?。貌似度娘也不知道╮(╯▽╰)╭
经过我的细品(●ˇ∀ˇ●),恍惚间打开了任督二脉:
样本空间和总体,虽说都是一种全部东西的集合的感觉,但是,这个东西是不一样的,样本空间里面的东西是一次随机试验的所有可能结果,总体里面的东西压根儿与随机试验没有半毛钱的关系。真不知道我在纠结什么。
小朋友,如果你没有这个问号,那么你是真的根骨奇佳( •̀ ω •́ )。

对于总体,如果往戏里说(苏三~ 里了洪洞县~):
可以分为有限总体、无限总体、假想总体,分别送你三个栗子(真的很甜)。
所谓的有限总体,例如考察某厂生产的灯泡的使用寿命,这里的灯泡都是有限的。
所谓的无限总体,例如海水检测,这里的海水其实就是无限的(不要杠)。
所谓的假想总体,例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。

  • 样本具有两重性
    • 一次具体的抽样后,样本是一组具体的数值
    • 一般叙述中,由于样本的抽样是随机的,所以样本是一组随机变量
    • 一般用 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,Xn表示随机样本
    • 随机样本取到的值记为 x 1 , x 2 , ⋯ x n x_1,x_2,\cdots x_n x1,x2,xn,称为样本观测值

本节的重点就是各种统计量的计算。
统计量包括样本均值、样本方差、 k k k阶样本原点矩、 k k k阶样本中心距、顺序统计量。
统计量就是对样本进行了一些加工处理,通过这些统计量使得所研究的问题的信息集中起来。
计算统计量,对研究的问题得出结论,这一过程就是统计推断。

统计量定义及公式作用
样本均值 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,Xn是总体 X X X的一个简单随机样本,称 X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac {1} {n} \sum_{i=1}^n X_i Xˉ=n1i=1nXi为样本均值。①估计总体分布的均值;
②对有关总体分布均值的假设作检验。
样本方差 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,Xn是总体 X X X的一个简单随机样本, X ˉ \bar X Xˉ为样本均值,称 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2=\frac {1}{n-1} \sum_{i=1}^n (X_i-\bar X)^2 S2=n11i=1n(XiXˉ)2为样本方差。①估计总体分布的方差;
②对有关总体分布的均值或方差作假设检验。
k k k阶样本原点矩 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,Xn是总体 X X X的一个简单随机样本,称 A k = 1 n ∑ i = 1 n X i k A_k=\frac {1}{n}\sum_{i=1}^nX_i^k Ak=n1i=1nXik为样本的 k k k阶原点矩。( k = 1 k=1 k=1时,相当于样本均值)估计总体分布的 k k k阶原点矩
k k k阶样本中心矩 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,Xn是总体 X X X的一个简单随机样本, X ˉ \bar X Xˉ为样本均值,称 M k = 1 n ∑ i = 1 n ( X i − X ˉ ) k M_k=\frac {1}{n} \sum_{i=1}^n (X_i-\bar X)^k Mk=n1i=1n(XiXˉ)k为样本的 k k k阶中心矩。估计总体分布的 k k k阶中心矩
顺序统计量 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,Xn是抽自总体 X X X的样本, x 1 , x 2 , ⋯ x n x_1,x_2,\cdots x_n x1,x2,xn为样本观测值。将 x 1 , x 2 , ⋯ x n x_1,x_2,\cdots x_n x1,x2,xn按照从小到大的顺序排列为 x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n ) x_{(1)}≤x_{(2)}≤\cdots ≤x_{(n)} x(1)x(2)x(n)定义: x ( k ) ( k = 1 , 2 , ⋯   , n ) x_{(k)}(k=1,2,\cdots,n) x(k)(k=1,2,,n)对应的样本个体为 X ( k ) X_{(k)} X(k),由此得到 ( X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) ) (X_{(1)},X_{(2)},\cdots ,X_{(n)}) (X(1),X(2),,X(n)),称其为样本 ( X 1 , X 2 , ⋯ X n ) (X_1,X_2,\cdots X_n) (X1,X2,Xn)次序统计量
其中, X ( k ) X_{(k)} X(k)称为第 k k k顺序统计量(即它的每次取值总是取每次样本观测值由小到大排序后的第 k k k个值)。
①最小顺序统计量: X ( 1 ) = m i n X i X_{(1)}=minX_i X(1)=minXi
②最大顺序统计量: X ( n ) = m a x X n X_{(n)}=maxX_n X(n)=maxXn

描述性统计

数据集中趋势的度量

定义及公式作用
平均数 x ˉ = 1 n ∑ i = 1 n x i \bar x=\frac {1}{n}\sum_{i=1}^nx_i xˉ=n1i=1nxi表示一组数据集中趋势的量数
中位数是指一组 n n n个数据,排序后,中间位置的数 m e = { 1 2 ( x ( n 2 ) + x ( n + 1 2 ) ) , 当 n 为 偶 数 x ( n + 1 2 ) , 当 n 为 奇 数 m_e=\LARGE \lbrace_{\frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n+1}{2})}),当n为偶数}^{x_{(\frac{n+1}{2})},当n为奇数} me={21(x(2n)+x(2n+1))nx(2n+1)n①描述数据中心位置的数字特征; \newline ②对称分布的数据:中位数与均值比较接近; \newline ③偏态分布的数据:均值与中位数不同; \newline ④不受异常值影响,具有稳健性。
频数指同一观测值在一组数据中出现的次数。
众数指一组数据中出现次数最多的那个数。
百分位数 X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) X_{(1)}≤X_{(2)}≤\cdots ≤X_{(n)} X(1)X(2)X(n)是取自总体 X X X的次序统计量,称 M p M_p Mp p p p分位数 M p = { 1 2 ( X ( n p ) + X ( n p + 1 ) ) , 若 n p 是 整 数 ; X ( [ n p + 1 ] ) , 若 n p 不 是 整 数 ; M_p=\LARGE\lbrace_{\frac{1}{2}(X_{(np)}+X_{(np+1)}),若np是整数;}^{X_{([np+1])},若np不是整数;} Mp={21(X(np)+X(np+1)),npX([np+1]),np
优点缺点
均值充分利用所有数据,适用性强容易受极端值影响
中位数不受极端值影响缺乏敏感性
众数不受极端值影响;当数据具有明显趋势时,代表性好缺乏唯一性

数据离散趋势的度量

度量定义及公式作用
方差 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac {1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2 s2=n11i=1n(xixˉ)2用来计算每一个变量与总体均数之间的差异。
标准差 S = s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S=\sqrt {s^2}=\sqrt {\frac {1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2} S=s2 =n11i=1n(xixˉ)2
极差 R = x ( n ) − x ( 1 ) = m a x ( x ) − m i n ( x ) R=x_{(n)}-x_{(1)=max(x)-min(x)} R=x(n)x(1)=max(x)min(x)数据越分散,极差越大
变异系数也称为标准离差率单位风险 C V = 100 × s x ˉ ( % ) CV=100×\frac {s}{\bar x}(\%) CV=100×xˉs(%)①刻画数据相对分散的一种度量; \newline ②一般适用于平均值大于0的情况; \newline ③在比较两组数据离散程度大小的时候,如果这两组数据的测量尺度相差太大或者数据量纲不同,变异系数可以削除这种影响。
四分位差样本上、下四分位数之差称为四分位差(或半极差) R 1 = Q 3 − Q 1 R_1=Q_3-Q_1 R1=Q3Q1①度量样本分散性; \newline ②对于异常值的数据,它具有稳健性。

分布特征

连续型变量分布函数
X X X是一个随机变量,对任意的实数 x x x,令 F ( x ) = P { X ≤ x } , x ∈ ( − ∞ , + ∞ ) , F ( − ∞ ) = 0 , F ( + ∞ ) = 1 , F ′ ( x ) ≥ 0 F(x)=P\lbrace{X≤x}\rbrace,x\in (-\infty,+\infty),F(-\infty)=0,F(+\infty)=1,F'(x)≥0 F(x)=P{Xx},x(,+),F()=0,F(+)=1,F(x)0则称 F ( x ) F(x) F(x)是随机变量 X X X的分布函数(概率累计函数)。
常见的连续型变量的分布函数

连续型分布函数公式及定义
正态分布(normal distribution) \newline 高斯分布(Gauss distribution)概率密度函数: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty f(x)=2π σ1e2σ2(xμ)2,<x<+分布函数公式: F ( x ) = 1 2 π σ ∫ − ∞ x e − ( x − μ ) 2 2 σ 2 d t , − ∞ < x < + ∞ F(x)=\frac {1}{\sqrt {2\pi}\sigma}\int _{-\infty}^xe^{-\frac {(x-\mu)^2}{2\sigma^2}}dt,-\infty<x<+\infty F(x)=2π σ1xe2σ2(xμ)2dt,<x<+ X ~ N ( μ , σ 2 ) X\text{\textasciitilde}N(\mu,\sigma^2) X~N(μ,σ2)
标准正态分布 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1时的正态分布
概率密度函数: ϕ ( x ) = 1 2 π e − x 2 2 \phi(x)=\frac {1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}} ϕ(x)=2π 1e2x2分布函数公式: Φ ( x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t \Phi(x)=\frac {1}{\sqrt {2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt Φ(x)=2π 1xe2t2dt
X ~ N ( 0 , 1 ) X\text{\textasciitilde}N(0,1) X~N(0,1)
均匀分布(Uniform)概率密度函数: f ( x ) = { 0       , 其 它 1 b − a , a ≤ x ≤ b f(x)=\LARGE\lbrace_{0\space \space \space \space \space,其它}^{\frac {1}{b-a},a≤x≤b} f(x)={0     ,ba1,axb分布函数公式: 若 X ~ [ a , b ] , 则 对 于 满 足 a ≤ c < d ≤ b 的 c , d , 总 有 P { c ≤ X ≤ d } = ∫ a b f ( x ) d x = d − c b − a 若X\text{\textasciitilde}[a,b],则对于满足a≤c<d≤b的c,d,总有\newline P\lbrace{c≤X≤d}\rbrace=\int_a^bf(x)dx=\frac {d-c}{b-a} X~[a,b]acdbc,d,P{cXd}=abf(x)dx=badc X ~ [ a , b ] X\text{\textasciitilde}[a,b] X~[a,b]
指数分布概率密度函数: f ( x ) = { 0           , x < 0 λ e − λ x , x ≥ 0 , λ > 0 f(x)=\LARGE \lbrace_{0\space \space \space \space \space \space \space \space \space,x<0}^{\lambda e^{-\lambda x},x≥0},\lambda>0 f(x)={0         ,x<0λeλx,x0,λ>0 X ~ E ( λ ) X\text{\textasciitilde}E(\lambda) X~E(λ)

离散型变量概率函数
P ( X = x i ) = p i , 0 ≤ P ( x i ) ≤ 1 , 且 ∑ i = 1 + ∞ P ( x i ) = 1 P(X=x_i)=p_i,0≤P(x_i)≤1,且\sum_{i=1}^{+\infty}P(x_i)=1 P(X=xi)=pi,0P(xi)1,i=1+P(xi)=1

离散型分布函数公式及定义
两点分布 E E E是一个只有两种可能结果的随机试验,用 Ω = { ω 1 , ω 2 } \Omega=\lbrace{\omega_1,\omega_2}\rbrace Ω={ω1,ω2}表示其样本空间。 P ( { ω 1 } ) = p , P ( { ω 2 } ) = 1 − p P(\lbrace{\omega_1}\rbrace)=p,P(\lbrace{\omega_2}\rbrace)=1-p P({ω1})=p,P({ω2})=1p X ( ω ) = { 0 , ω = ω 2 1 , ω = ω 1 X(\omega)=\LARGE\lbrace_{0,\omega=\omega_2}^{1,\omega=\omega_1} X(ω)={0,ω=ω21,ω=ω1 X ~ B ( p , 1 − p ) X\text{\textasciitilde}B(p,1-p) X~B(p,1p)
Bernoulli分布
二项分布
A = { n 重 B e r n o u l l i 试 验 中 A 出 现 k 次 } A=\lbrace{n重Bernoulli试验中A出现k次}\rbrace A={nBernoulliAk},则 P ( A k ) = C n k P k ( 1 − p ) n − k , k = 0 , 1 , 2 , ⋯   , n P(A_k)=C_n^kP^k(1-p)^{n-k},k=0,1,2,\cdots,n P(Ak)=CnkPk(1p)nk,k=0,1,2,,n X ~ B ( n , p ) X\text{\textasciitilde}B(n,p) X~B(n,p)
泊松分布设随机变量 X X X所有可能取的值为 0 , 1 , 2 , ⋯ 0,1,2,\cdots 0,1,2,,则概率分布为 P { X = k } = e − λ λ k k ! , k = 0 , 1 , 2 , ⋯ P\lbrace{X=k}\rbrace=e^{-\lambda} \frac {\lambda^k}{k!},k=0,1,2,\cdots P{X=k}=eλk!λk,k=0,1,2, X ~ ( λ ) X\text{\textasciitilde}(\lambda) X~(λ)

偏度与峰度

定义及公式
偏度(skewness)也称偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。也就是密度函数曲线尾部的相对长度。 g 1 = n ( n − 1 ) ( n − 2 ) S 2 ∑ i = 1 n ( x i − x ˉ ) 3 = n 2 μ 3 ( n − 1 ) ( n − 2 ) S 3 g_1=\frac {n}{(n-1)(n-2)S^2}\sum_{i=1}^n(x_i-\bar x)^3=\frac {n^2 \mu_3}{(n-1)(n-2)S^3} g1=(n1)(n2)S2ni=1n(xixˉ)3=(n1)(n2)S3n2μ3
偏度刻画的是分布函数(数据)的对称性。
均值对称的数据其偏度系数为0;
右侧更分散的数据偏度系数为正;
左侧更分散的数据偏度系数为负。
正态分布的偏度为0,两侧尾部长度对称。
左偏:
1、若以bs表示偏度,bs<0称分布具有负偏离,也称左偏态
2、此时数据位于均值左边的比位于右边的少,直接表现为左边的尾部相对于右边的尾部要长。
3、因为有少数变量值很少,使曲线左侧尾部拖得很长。
右偏:
1、若以bs表示偏度,bs>0称分布具有正偏离,也称右偏态
2、此时数据位于均值右边的比位于左边的少,直接表现为右边的尾部相对于左边的尾部要长。
3、因为有少数变量值很大,使曲线右侧尾部拖得很长。
峰度(peakedness)说明的是分布曲线在平均值处峰值高低的特征数。也就是反映了峰部的尖度。 g 2 = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) S 4 ∑ i = 1 n ( x i − x ˉ ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) = n 2 ( n + 1 ) μ 4 ( n − 1 ) ( n − 2 ) ( n − 3 ) S 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) g_2=\frac {n(n+1)}{(n-1)(n-2)(n-3)S^4}\sum_{i=1}^n(x_i-\bar x)^4-3\frac {(n-1)^2}{(n-2)(n-3)}=\frac {n^2(n+1)\mu_4}{(n-1)(n-2)(n-3)S^4}-3\frac {(n-1)^2}{(n-2)(n-3)} g2=(n1)(n2)(n3)S4n(n+1)i=1n(xixˉ)43(n2)(n3)(n1)2=(n1)(n2)(n3)S4n2(n+1)μ43(n2)(n3)(n1)2
峰度大于3,则峰的形状比较尖,比正态分布要陡峭,反之亦然。
峰度刻画的是分布函数的集中和分散程度。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

哎呦哥哥、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值