真的全忘了。。。
泊松、指数、伽马分布
- 泊松分布: 已知某事件单位时间的平均发生率 λ λ ,能给出单位时间内实际上发生X次的概率。可以证明二项分布取极限(试无数次)就是泊松分布,也就是说二项分布是泊松分布在离散的时间上的对应。
- 指数分布: 泊松过程中,第k次随机事件与第k+1次随机事件出现的时间间隔t服从指数分布,即
t∼Expotional(λ)
t
∼
E
x
p
o
t
i
o
n
a
l
(
λ
)
。可以发现指数分布的累积分布函数(注意不是概率密度函数):
1−e−λt
1
−
e
−
λ
t
中的
e−λt
e
−
λ
t
就是泊松分布中t个时间内不发生事件的概率。
这个累积分布函数只是说出现,而不管出现几次,其实和直接用二项分布计算(1减去每次都不出现的概率)基本上相同,只是一个用概率的乘方,一个用 e e 来表示。比如说计算0.01概率出5星的抽卡,可以用下面的两种式子计算,而得到的函数曲线基本上是重合的。因为通过泊松分布的证明过程,可以把组合数、概率乘方变成用指数表示。(这个图可见fgo抽卡是多么难出货,要理性氪金啊!)
- 伽马分布: 说的是事件平均概率
1β
1
β
的时候等到第
α
α
个事件发生的时间X符合伽马分布
以上就是它们之间的关系。提这个是因为指数分布、卡方分布都是伽马分布的特例。指数分布只能表示发生事件,不能算等到发生了第k个事件的概率。后者可以用二项分布计算(也是组合数乘以概率),之后转化成用伽马分布表示。
显著性检验
Z检验
有一个来自正态分布总体的样本 Xi… X i … ,已知(指定)总体的 σ2 σ 2 ,想知道总体均值 μ μ 和给的 μ0 μ 0 有没有显著差异。于是零假设是 μ=μ0 μ = μ 0 ,用统计量 Z=μ−μ0σn√ Z = μ − μ 0 σ n 在正态分布里找拒绝域。
t检验
单样本的
有一个来自正态分布总体的样本
Xi…
X
i
…
,不知道总体的
σ2
σ
2
和
μ0
μ
0
,想知道总体均值
μ
μ
和给的
μ0
μ
0
有没有显著差异。于是零假设是
μ=μ0
μ
=
μ
0
,用样本标准差
S2
S
2
代替
σ2
σ
2
,用统计量
t=μ−μ0Sn√∼t(n−1)
t
=
μ
−
μ
0
S
n
∼
t
(
n
−
1
)
在学生分布(t分布)里找拒绝域。
因为是用样本估计了总体的标准差,所以不能用正态分布了。学生分布当时被发明出来就是为了解决这个问题的,它的概率密度函数
f(t)
f
(
t
)
里面有一个自由度(
n−1
n
−
1
)的参数。
双样本的、配对的等等
F检验
又叫联合假设检验、方差齐性检验。t检验要求两个总体方差相等的时候就要先检验方差齐性。
有两个正态样本,想检验两个总体的方差是否有显著差异。构造统计量
F=U1/d1U2/d2
F
=
U
1
/
d
1
U
2
/
d
2
,
U1
U
1
和
U2
U
2
呈卡方分布,它们的自由度分别是
d1
d
1
和
d2
d
2
。
卡方分布
符合标准正态分布的随机变量的平方和服从自由度为 k 的卡方分布。比如有一个来自正态分布总体的样本 Xi… X i … ,不知道总体的 σ2 σ 2 和 μ0 μ 0 ,想知道总体方差 σ2 σ 2 和给的 σ20 σ 0 2 有没有显著差异。样本的标准差 S S 是总体标准差的无偏估计,再除以就正好凑出来一个标准正态分布。统计量 (n−1)S2σ20∼χ(n−1) ( n − 1 ) S 2 σ 0 2 ∼ χ ( n − 1 ) ,在卡方分布函数里找拒绝域。
线性回归中的显著性检验
检验一个回归系数
用t检验,零假设为回归系数 β β 是0,。从最小二乘求出回归系数的方法可知,回归系数的标准差 Sβ=σΣ(xi−x¯)2√ S β = σ Σ ( x i − x ¯ ) 2 ,但总体 y y 的标准差不知道,所以用样本的 Sy S y 代替。计算统计量 t=βSβ∼t(n−2) t = β S β ∼ t ( n − 2 ) 。
检验所有的回归系数
用f检验,零假设为所有的回归系数都是0。为了验证这一点,使用了三个平方和(间接表现出零假设的影响):
- SSM/SSR (Sum of Squares for Model/Regression)
- SSE (Sum of Squares for Error)
- SST (Sum of Squares Total)
关系:SST(样本值和样本平均值之差的平方和)=SSM(预测值和平均值之差的平方和)+ SSE(预测值和样本值之差的平方和)。顺便一提,判定系数
r2=SSMSST
r
2
=
S
S
M
S
S
T
。
把SSM和SSE都除以
σ2
σ
2
就能构造两个符合卡方分布的变量,相除之后消去不知道的方差。
最终得到统计量
F=SSM/pSSE/n−p−1∼F(p,n−p−1)
F
=
S
S
M
/
p
S
S
E
/
n
−
p
−
1
∼
F
(
p
,
n
−
p
−
1
)
,在F分布函数里找拒绝域。
ANOVA
主要的零假设就是几个样本的均值相等,即没有显著性差异。为了验证这一点,用的基本就是上面显著性检验的方法。
在检验两组之间的差异的时候,就可以用t检验;而在多组的时候,虽然可以两两做t检验,但是不能替代原有的假设,所以用F检验。F检验时也是用组间之差的平方和比上组内之差的平方和。跟回归系数检验里面的F检验一个道理。
总之就是没有特别的方法,就是上面方法的综合运用。