概率是用计算概括的常识 。 \textbf{概率是用计算概括的常识}。 概率是用计算概括的常识。——拉普拉斯
数理统计
以下这些概念,你品,你细品~
名词 | 符号 | 概念 |
---|---|---|
总体 | X X X | 研究对象的全体,通常就是指一个随机变量。 |
个体 | X i X_i Xi | 组成总体的每个基本单元 |
样本 | X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn | 从总体中随机抽取的一部分个体,容量为 n n n |
样本容量 | n n n | 一个样本中个体的数量 |
样本空间 | Ω \Omega Ω | 随机试验 E E E所有可能结果组成的集合 |
样本点 | ω \omega ω | 随机试验 E E E的每一个可能结果 |
举个栗子:
假设准备计算中国人的身高的平均值。
总体就是全部中国人的身高值。
个体就是每一个人的身高值。你的身高值是这次计算的个体,我的也是。
很明显,如果要测量咱们15亿人口的身高有点儿不现实,我们就要随机选出一部分Lucky Dog们,让他们代替我们去测身高,至于用什么方法选,那是抽样的问题,分不同的地区,不同的年龄,不同的性别等等因素来选择。
那么就很好理解:
样本就是那些被选召的孩子们(亚古兽究极进化~)。
样本容量就是被选召的孩子们的数量。此处,切记,样本容量不是样本的数量,而是样本的个体的数量。(《数码宝贝》每一代都有一批被选召的孩子们。)
至于总体和样本空间,小朋友,你是否有很多问号?。貌似度娘也不知道╮(╯▽╰)╭
经过我的细品(●ˇ∀ˇ●),恍惚间打开了任督二脉:
样本空间和总体,虽说都是一种全部东西的集合的感觉,但是,这个东西是不一样的,样本空间里面的东西是一次随机试验的所有可能结果,总体里面的东西压根儿与随机试验没有半毛钱的关系。真不知道我在纠结什么。
小朋友,如果你没有这个问号,那么你是真的根骨奇佳( •̀ ω •́ )。
对于总体,如果往戏里说(苏三~ 里了洪洞县~):
可以分为有限总体、无限总体、假想总体,分别送你三个栗子(真的很甜)。
所谓的有限总体,例如考察某厂生产的灯泡的使用寿命,这里的灯泡都是有限的。
所谓的无限总体,例如海水检测,这里的海水其实就是无限的(不要杠)。
所谓的假想总体,例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。
- 样本具有两重性
- 一次具体的抽样后,样本是一组具体的数值;
- 一般叙述中,由于样本的抽样是随机的,所以样本是一组随机变量。
- 一般用 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,⋯Xn表示随机样本;
- 随机样本取到的值记为 x 1 , x 2 , ⋯ x n x_1,x_2,\cdots x_n x1,x2,⋯xn,称为样本观测值。
本节的重点就是各种统计量的计算。
统计量包括样本均值、样本方差、
k
k
k阶样本原点矩、
k
k
k阶样本中心距、顺序统计量。
统计量就是对样本进行了一些加工处理,通过这些统计量使得所研究的问题的信息集中起来。
计算统计量,对研究的问题得出结论,这一过程就是统计推断。
统计量 | 定义及公式 | 作用 |
---|---|---|
样本均值 | 设 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,⋯Xn是总体 X X X的一个简单随机样本,称 X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac {1} {n} \sum_{i=1}^n X_i Xˉ=n1i=1∑nXi为样本均值。 | ①估计总体分布的均值; ②对有关总体分布均值的假设作检验。 |
样本方差 | 设 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,⋯Xn是总体 X X X的一个简单随机样本, X ˉ \bar X Xˉ为样本均值,称 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2=\frac {1}{n-1} \sum_{i=1}^n (X_i-\bar X)^2 S2=n−11i=1∑n(Xi−Xˉ)2为样本方差。 | ①估计总体分布的方差; ②对有关总体分布的均值或方差作假设检验。 |
k k k阶样本原点矩 | 设 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,⋯Xn是总体 X X X的一个简单随机样本,称 A k = 1 n ∑ i = 1 n X i k A_k=\frac {1}{n}\sum_{i=1}^nX_i^k Ak=n1i=1∑nXik为样本的 k k k阶原点矩。( k = 1 k=1 k=1时,相当于样本均值) | 估计总体分布的 k k k阶原点矩 |
k k k阶样本中心矩 | 设 X 1 , X 2 , ⋯ X n X_1,X_2,\cdots X_n X1,X2,⋯Xn是总体 X X X的一个简单随机样本, X ˉ \bar X Xˉ为样本均值,称 M k = 1 n ∑ i = 1 n ( X i − X ˉ ) k M_k=\frac {1}{n} \sum_{i=1}^n (X_i-\bar X)^k Mk=n1i=1∑n(Xi−Xˉ)k为样本的 k k k阶中心矩。 | 估计总体分布的 k k k阶中心矩 |
顺序统计量 | 设
X
1
,
X
2
,
⋯
X
n
X_1,X_2,\cdots X_n
X1,X2,⋯Xn是抽自总体
X
X
X的样本,
x
1
,
x
2
,
⋯
x
n
x_1,x_2,\cdots x_n
x1,x2,⋯xn为样本观测值。将
x
1
,
x
2
,
⋯
x
n
x_1,x_2,\cdots x_n
x1,x2,⋯xn按照从小到大的顺序排列为
x
(
1
)
≤
x
(
2
)
≤
⋯
≤
x
(
n
)
x_{(1)}≤x_{(2)}≤\cdots ≤x_{(n)}
x(1)≤x(2)≤⋯≤x(n)定义:
x
(
k
)
(
k
=
1
,
2
,
⋯
,
n
)
x_{(k)}(k=1,2,\cdots,n)
x(k)(k=1,2,⋯,n)对应的样本个体为
X
(
k
)
X_{(k)}
X(k),由此得到
(
X
(
1
)
,
X
(
2
)
,
⋯
,
X
(
n
)
)
(X_{(1)},X_{(2)},\cdots ,X_{(n)})
(X(1),X(2),⋯,X(n)),称其为样本
(
X
1
,
X
2
,
⋯
X
n
)
(X_1,X_2,\cdots X_n)
(X1,X2,⋯Xn)的次序统计量。 其中, X ( k ) X_{(k)} X(k)称为第 k k k个顺序统计量(即它的每次取值总是取每次样本观测值由小到大排序后的第 k k k个值)。 | ①最小顺序统计量:
X
(
1
)
=
m
i
n
X
i
X_{(1)}=minX_i
X(1)=minXi ②最大顺序统计量: X ( n ) = m a x X n X_{(n)}=maxX_n X(n)=maxXn |
描述性统计
数据集中趋势的度量
定义及公式 | 作用 | |
---|---|---|
平均数 | x ˉ = 1 n ∑ i = 1 n x i \bar x=\frac {1}{n}\sum_{i=1}^nx_i xˉ=n1i=1∑nxi | 表示一组数据集中趋势的量数 |
中位数 | 是指一组 n n n个数据,排序后,中间位置的数 m e = { 1 2 ( x ( n 2 ) + x ( n + 1 2 ) ) , 当 n 为 偶 数 x ( n + 1 2 ) , 当 n 为 奇 数 m_e=\LARGE \lbrace_{\frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n+1}{2})}),当n为偶数}^{x_{(\frac{n+1}{2})},当n为奇数} me={21(x(2n)+x(2n+1)),当n为偶数x(2n+1),当n为奇数 | ①描述数据中心位置的数字特征; \newline ②对称分布的数据:中位数与均值比较接近; \newline ③偏态分布的数据:均值与中位数不同; \newline ④不受异常值影响,具有稳健性。 |
频数 | 指同一观测值在一组数据中出现的次数。 | |
众数 | 指一组数据中出现次数最多的那个数。 | |
百分位数 | 设 X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) X_{(1)}≤X_{(2)}≤\cdots ≤X_{(n)} X(1)≤X(2)≤⋯≤X(n)是取自总体 X X X的次序统计量,称 M p M_p Mp为 p p p分位数 M p = { 1 2 ( X ( n p ) + X ( n p + 1 ) ) , 若 n p 是 整 数 ; X ( [ n p + 1 ] ) , 若 n p 不 是 整 数 ; M_p=\LARGE\lbrace_{\frac{1}{2}(X_{(np)}+X_{(np+1)}),若np是整数;}^{X_{([np+1])},若np不是整数;} Mp={21(X(np)+X(np+1)),若np是整数;X([np+1]),若np不是整数; |
优点 | 缺点 | |
---|---|---|
均值 | 充分利用所有数据,适用性强 | 容易受极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 不受极端值影响;当数据具有明显趋势时,代表性好 | 缺乏唯一性 |
数据离散趋势的度量
度量 | 定义及公式 | 作用 |
---|---|---|
方差 | s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2=\frac {1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2 s2=n−11i=1∑n(xi−xˉ)2 | 用来计算每一个变量与总体均数之间的差异。 |
标准差 | S = s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S=\sqrt {s^2}=\sqrt {\frac {1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2} S=s2=n−11i=1∑n(xi−xˉ)2 | |
极差 | R = x ( n ) − x ( 1 ) = m a x ( x ) − m i n ( x ) R=x_{(n)}-x_{(1)=max(x)-min(x)} R=x(n)−x(1)=max(x)−min(x) | 数据越分散,极差越大 |
变异系数 | 也称为标准离差率或单位风险 C V = 100 × s x ˉ ( % ) CV=100×\frac {s}{\bar x}(\%) CV=100×xˉs(%) | ①刻画数据相对分散的一种度量; \newline ②一般适用于平均值大于0的情况; \newline ③在比较两组数据离散程度大小的时候,如果这两组数据的测量尺度相差太大或者数据量纲不同,变异系数可以削除这种影响。 |
四分位差 | 样本上、下四分位数之差称为四分位差(或半极差) R 1 = Q 3 − Q 1 R_1=Q_3-Q_1 R1=Q3−Q1 | ①度量样本分散性; \newline ②对于异常值的数据,它具有稳健性。 |
分布特征
连续型变量分布函数
设
X
X
X是一个随机变量,对任意的实数
x
x
x,令
F
(
x
)
=
P
{
X
≤
x
}
,
x
∈
(
−
∞
,
+
∞
)
,
F
(
−
∞
)
=
0
,
F
(
+
∞
)
=
1
,
F
′
(
x
)
≥
0
F(x)=P\lbrace{X≤x}\rbrace,x\in (-\infty,+\infty),F(-\infty)=0,F(+\infty)=1,F'(x)≥0
F(x)=P{X≤x},x∈(−∞,+∞),F(−∞)=0,F(+∞)=1,F′(x)≥0则称
F
(
x
)
F(x)
F(x)是随机变量
X
X
X的分布函数(概率累计函数)。
常见的连续型变量的分布函数
连续型分布函数 | 公式及定义 | |
---|---|---|
正态分布(normal distribution) \newline 高斯分布(Gauss distribution) | 概率密度函数: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞分布函数公式: F ( x ) = 1 2 π σ ∫ − ∞ x e − ( x − μ ) 2 2 σ 2 d t , − ∞ < x < + ∞ F(x)=\frac {1}{\sqrt {2\pi}\sigma}\int _{-\infty}^xe^{-\frac {(x-\mu)^2}{2\sigma^2}}dt,-\infty<x<+\infty F(x)=2πσ1∫−∞xe−2σ2(x−μ)2dt,−∞<x<+∞ | X ~ N ( μ , σ 2 ) X\text{\textasciitilde}N(\mu,\sigma^2) X~N(μ,σ2) |
标准正态分布 |
μ
=
0
,
σ
=
1
\mu=0,\sigma=1
μ=0,σ=1时的正态分布 概率密度函数: ϕ ( x ) = 1 2 π e − x 2 2 \phi(x)=\frac {1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}} ϕ(x)=2π1e−2x2分布函数公式: Φ ( x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t \Phi(x)=\frac {1}{\sqrt {2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt Φ(x)=2π1∫−∞xe−2t2dt | X ~ N ( 0 , 1 ) X\text{\textasciitilde}N(0,1) X~N(0,1) |
均匀分布(Uniform) | 概率密度函数: f ( x ) = { 0 , 其 它 1 b − a , a ≤ x ≤ b f(x)=\LARGE\lbrace_{0\space \space \space \space \space,其它}^{\frac {1}{b-a},a≤x≤b} f(x)={0 ,其它b−a1,a≤x≤b分布函数公式: 若 X ~ [ a , b ] , 则 对 于 满 足 a ≤ c < d ≤ b 的 c , d , 总 有 P { c ≤ X ≤ d } = ∫ a b f ( x ) d x = d − c b − a 若X\text{\textasciitilde}[a,b],则对于满足a≤c<d≤b的c,d,总有\newline P\lbrace{c≤X≤d}\rbrace=\int_a^bf(x)dx=\frac {d-c}{b-a} 若X~[a,b],则对于满足a≤c<d≤b的c,d,总有P{c≤X≤d}=∫abf(x)dx=b−ad−c | X ~ [ a , b ] X\text{\textasciitilde}[a,b] X~[a,b] |
指数分布 | 概率密度函数: f ( x ) = { 0 , x < 0 λ e − λ x , x ≥ 0 , λ > 0 f(x)=\LARGE \lbrace_{0\space \space \space \space \space \space \space \space \space,x<0}^{\lambda e^{-\lambda x},x≥0},\lambda>0 f(x)={0 ,x<0λe−λx,x≥0,λ>0 | X ~ E ( λ ) X\text{\textasciitilde}E(\lambda) X~E(λ) |
离散型变量概率函数
P
(
X
=
x
i
)
=
p
i
,
0
≤
P
(
x
i
)
≤
1
,
且
∑
i
=
1
+
∞
P
(
x
i
)
=
1
P(X=x_i)=p_i,0≤P(x_i)≤1,且\sum_{i=1}^{+\infty}P(x_i)=1
P(X=xi)=pi,0≤P(xi)≤1,且i=1∑+∞P(xi)=1
离散型分布函数 | 公式及定义 | |
---|---|---|
两点分布 | 设 E E E是一个只有两种可能结果的随机试验,用 Ω = { ω 1 , ω 2 } \Omega=\lbrace{\omega_1,\omega_2}\rbrace Ω={ω1,ω2}表示其样本空间。 P ( { ω 1 } ) = p , P ( { ω 2 } ) = 1 − p P(\lbrace{\omega_1}\rbrace)=p,P(\lbrace{\omega_2}\rbrace)=1-p P({ω1})=p,P({ω2})=1−p X ( ω ) = { 0 , ω = ω 2 1 , ω = ω 1 X(\omega)=\LARGE\lbrace_{0,\omega=\omega_2}^{1,\omega=\omega_1} X(ω)={0,ω=ω21,ω=ω1 | X ~ B ( p , 1 − p ) X\text{\textasciitilde}B(p,1-p) X~B(p,1−p) |
Bernoulli分布 二项分布 | 设 A = { n 重 B e r n o u l l i 试 验 中 A 出 现 k 次 } A=\lbrace{n重Bernoulli试验中A出现k次}\rbrace A={n重Bernoulli试验中A出现k次},则 P ( A k ) = C n k P k ( 1 − p ) n − k , k = 0 , 1 , 2 , ⋯ , n P(A_k)=C_n^kP^k(1-p)^{n-k},k=0,1,2,\cdots,n P(Ak)=CnkPk(1−p)n−k,k=0,1,2,⋯,n | X ~ B ( n , p ) X\text{\textasciitilde}B(n,p) X~B(n,p) |
泊松分布 | 设随机变量 X X X所有可能取的值为 0 , 1 , 2 , ⋯ 0,1,2,\cdots 0,1,2,⋯,则概率分布为 P { X = k } = e − λ λ k k ! , k = 0 , 1 , 2 , ⋯ P\lbrace{X=k}\rbrace=e^{-\lambda} \frac {\lambda^k}{k!},k=0,1,2,\cdots P{X=k}=e−λk!λk,k=0,1,2,⋯ | X ~ ( λ ) X\text{\textasciitilde}(\lambda) X~(λ) |
偏度与峰度
定义及公式 | |
---|---|
偏度(skewness) | 也称偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。也就是密度函数曲线尾部的相对长度。 g 1 = n ( n − 1 ) ( n − 2 ) S 2 ∑ i = 1 n ( x i − x ˉ ) 3 = n 2 μ 3 ( n − 1 ) ( n − 2 ) S 3 g_1=\frac {n}{(n-1)(n-2)S^2}\sum_{i=1}^n(x_i-\bar x)^3=\frac {n^2 \mu_3}{(n-1)(n-2)S^3} g1=(n−1)(n−2)S2ni=1∑n(xi−xˉ)3=(n−1)(n−2)S3n2μ3 |
偏度刻画的是分布函数(数据)的对称性。 均值对称的数据其偏度系数为0; 右侧更分散的数据偏度系数为正; 左侧更分散的数据偏度系数为负。 正态分布的偏度为0,两侧尾部长度对称。 左偏: 1、若以bs表示偏度,bs<0称分布具有负偏离,也称左偏态。 2、此时数据位于均值左边的比位于右边的少,直接表现为左边的尾部相对于右边的尾部要长。 3、因为有少数变量值很少,使曲线左侧尾部拖得很长。 右偏: 1、若以bs表示偏度,bs>0称分布具有正偏离,也称右偏态。 2、此时数据位于均值右边的比位于左边的少,直接表现为右边的尾部相对于左边的尾部要长。 3、因为有少数变量值很大,使曲线右侧尾部拖得很长。 | |
峰度(peakedness) | 说明的是分布曲线在平均值处峰值高低的特征数。也就是反映了峰部的尖度。 g 2 = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) S 4 ∑ i = 1 n ( x i − x ˉ ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) = n 2 ( n + 1 ) μ 4 ( n − 1 ) ( n − 2 ) ( n − 3 ) S 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) g_2=\frac {n(n+1)}{(n-1)(n-2)(n-3)S^4}\sum_{i=1}^n(x_i-\bar x)^4-3\frac {(n-1)^2}{(n-2)(n-3)}=\frac {n^2(n+1)\mu_4}{(n-1)(n-2)(n-3)S^4}-3\frac {(n-1)^2}{(n-2)(n-3)} g2=(n−1)(n−2)(n−3)S4n(n+1)i=1∑n(xi−xˉ)4−3(n−2)(n−3)(n−1)2=(n−1)(n−2)(n−3)S4n2(n+1)μ4−3(n−2)(n−3)(n−1)2 |
峰度大于3,则峰的形状比较尖,比正态分布要陡峭,反之亦然。 峰度刻画的是分布函数的集中和分散程度。 |