期望值(expected value) 描述随机变量水平的统计量
方差 描述离散程度的统计量
分布函数
F
(
x
)
F(x)
F(x)
概率密度函数
f
(
x
)
f(x)
f(x)
分布律
P
{
X
=
x
k
}
=
p
k
,
k
=
1
,
2
,
…
,
P\{X=x_k\} = p_k, \qquad k=1,2,\dots,
P{X=xk}=pk,k=1,2,…,
概率密度函数
f
(
x
)
f(x)
f(x) 与 分布函数
F
(
x
)
F(x)
F(x) 关系
F
(
x
)
=
P
{
X
≤
x
}
=
∫
∞
x
f
(
t
)
d
t
,
−
∞
<
x
<
∞
F(x)=P\{ X \le x \}= \int_{\infty}^{x}f(t)dt, \quad -\infty < x < \infty
F(x)=P{X≤x}=∫∞xf(t)dt,−∞<x<∞
连续型概率分布
对于概率密度函数为
f
(
x
)
f(x)
f(x) 的连续型随机变量,期望值为:
μ
=
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
\mu=E(X)=\int_{-\infty}^{\infty}xf(x)dx
μ=E(X)=∫−∞∞xf(x)dx
对于概率密度函数为
f
(
x
)
f(x)
f(x) 的连续型随机变量,方差 为:
σ
2
=
D
(
X
)
=
∫
−
∞
∞
(
x
−
μ
)
2
f
(
x
)
d
x
\sigma^2=D(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx
σ2=D(X)=∫−∞∞(x−μ)2f(x)dx
正态分布
正态分布:分布函数
F
(
x
)
F(x)
F(x)
设
μ
\mu
μ是均值,
σ
2
\sigma^2
σ2 是方差,对于任意的变量
x
x
x, 其正态分布的分布函数:
F
(
x
)
=
1
2
π
σ
∫
−
∞
x
e
x
p
{
−
(
t
−
μ
)
2
2
σ
2
}
d
t
F(x)=\frac{1}{\sqrt{2\pi }\sigma} \int_{-\infty}^{x} exp\{ -\frac{(t-\mu)^2}{2 \sigma^2 } \}dt
F(x)=2πσ1∫−∞xexp{−2σ2(t−μ)2}dt
pnorm(x, mu, sigma)
参数 | 描述 |
---|---|
x | 向量 |
mu | 均值 μ \mu μ |
sigma | 标准差 σ \sigma σ |
正态分布:概率密度函数
f
(
x
)
f(x)
f(x)
设
μ
\mu
μ是均值,
σ
2
\sigma^2
σ2 是方差,对于任意的变量
x
x
x, 其正态分布的概率密度函数:
f
(
x
)
=
1
2
π
σ
e
x
p
{
−
(
t
−
μ
)
2
2
σ
2
}
f(x)=\frac{1}{\sqrt{2\pi }\sigma} exp\{ -\frac{(t-\mu)^2}{2 \sigma^2 } \}
f(x)=2πσ1exp{−2σ2(t−μ)2}
X服从参数为
μ
\mu
μ 均值 ,
σ
2
\sigma^2
σ2 方差 的正态分布
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2)
dnorm(x, mu, sigma)
w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
x <- 44:76
lines(x, dnorm(x, mean(w), sd(w)), col = "red")
案例1:均值不同、方差相同得正态曲线
par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)
curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,col="black")
abline(h=0)
segments(-2,0,-2,dnorm(-2,-2,1),col="black")
curve(dnorm(x,2,1),from=-2,to=6,add=TRUE,lty=2,col="blue")
abline(h=0)
segments(2,0,2,dnorm(2,2,1),col="blue",lty=2)
legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,col=c("black","blue"),cex=0.8)
案例2:均值相同、方差不同的正态曲线
curve(dnorm(x,0,sqrt(1/2)),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=2)
abline(h=0)
segments(0,0,0,dnorm(0,mean=0,sd=sqrt(1/2)),col="blue",lty=2)
curve(dnorm(x,0,1),from=-4,to=4,add=TRUE,lty=2)
curve(dnorm(x,0,sqrt(2)),from=-4,to=4,add=TRUE,lty=3,col=4)
legend(x="topright",legend=c("N(0,0.5)","N(0,1)","N(0,2)"),lty=1:3,inset=0.02,col=c(2,"black",4))
标准正态分布
对于任意一个服从正态分布的随机变量,通过
Z
=
(
x
−
μ
)
σ
Z=\frac{(x-\mu)}{\sigma}
Z=σ(x−μ) 标准化后的新随机变量服从均值为0,标准差为1的标准正态分布(standard normal distribution),记为
X
∼
N
(
0
,
1
)
X\sim N(0,1)
X∼N(0,1)
标准正态分布的概率密度函数用
φ
(
x
)
=
1
2
π
e
−
1
2
x
2
,
−
∞
<
x
<
∞
\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}, \qquad -\infty<x<\infty
φ(x)=2π1e−21x2,−∞<x<∞
案例
(1)
X
∼
N
(
50
,
1
0
2
)
X\sim N(50,10^2)
X∼N(50,102),求
P
(
X
≤
40
)
P(X\le40)
P(X≤40) 和
P
(
30
≤
X
≤
40
)
P(30 \le X \le 40)
P(30≤X≤40)
P
(
X
≤
40
)
=
0.1586553
P(X\le40)=0.1586553
P(X≤40)=0.1586553
pnorm(40,mean=50,sd=10)
P ( 30 ≤ X ≤ 40 ) = 0.1359051 P(30 \le X\le40)=0.1359051 P(30≤X≤40)=0.1359051
pnorm(40,mean=50,sd=10)-pnorm(30,mean=50,sd=10)
(2)
Z
∼
N
(
0
,
1
)
Z \sim N(0,1)
Z∼N(0,1),求
P
(
Z
≤
2.5
)
P(Z\le2.5)
P(Z≤2.5) 和
P
(
−
1.5
≤
Z
≤
2
)
P(-1.5 \le Z \le 2)
P(−1.5≤Z≤2)
P
(
Z
≤
2.5
)
=
0.9937903
P(Z \le 2.5) =0.9937903
P(Z≤2.5)=0.9937903
pnorm(2.5,mean=0,sd=1)
P ( − 1.5 ≤ Z ≤ 2 ) = 0.04405707 P(-1.5 \le Z \le 2)= 0.04405707 P(−1.5≤Z≤2)=0.04405707
pnorm(2,mean=0,sd=1) - pnorm(1.5,mean=0,sd=1)
(3)标准正态分布累积概率为0.025时的反函数值z
z
=
−
1.959964
z =-1.959964
z=−1.959964
qnorm(0.025,mean=0,sd=1)
χ 2 \chi^2 χ2 分布
χ
2
\chi^2
χ2 分布(chi-square distribution) 是由Abbe于1863年首先提出的,后来由 Hermert 和 K.Pearson 分别于 1875年和1900年推导出来.
n个独立标准正态随机变量平方和的分布称为具有n个自由度的
χ
2
\chi^2
χ2分布,记为
χ
2
(
n
)
\chi^2(n)
χ2(n)
设Z为标准正态随机变量,令
X
=
Z
2
X=Z^2
X=Z2,则X服从自由度为1的
χ
2
\chi^2
χ2的分布,即
X
∼
χ
2
(
1
)
X\sim \chi^2(1)
X∼χ2(1),一般,对于n个独立标准正态随机变量
Z
1
2
,
Z
2
2
,
…
,
Z
n
2
Z_1^2,Z_2^2,\dots,Z_n^2
Z12,Z22,…,Zn2随机变量
X
=
∑
i
=
1
n
Z
i
2
X=\sum_{i=1}^{n}Z_i^2
X=∑i=1nZi2的分布为具有n个自由度的
χ
2
\chi^2
χ2分布,
记为
X
∼
χ
2
(
n
)
X\sim \chi^2(n)
X∼χ2(n)
不同自由度的 χ 2 \chi^2 χ2分布
par(mfrow=c(2,3),mai=c(0.6,0.6,0.2,0.1))
n=5000
df=c(2,5,10,15,20,30)
for(i in 1:6){
x <- rchisq(n,df[i])
hist(x,xlim=c(0,60),prob=T,col='lightblue',lab=expression(chi^2),ylab="Density",main=paste("df=",df[i]))
curve(dchisq(x,df[i]),col=2,add=T)
}
案例
(1)自由度为15, χ 2 \chi^2 χ2值小于10的概率 0.1802601 0.1802601 0.1802601
pchisq(10,df=15)
(2)自由度为25, χ 2 \chi^2 χ2值大于15的概率 0.9413826 0.9413826 0.9413826
1 - pchisq(15,df=25)
(3)自由度为10, χ 2 \chi^2 χ2分布右尾概率为0.05的反函数值 18.30704 18.30704 18.30704
qchisq(0.95,df=10)
t 分布
t分布(t-distribution)的提出者是 William Gosset, 由于他经常用笔名"student"发表文章,用
t
t
t 表示样本均值经标准化后的新随机变量,因此称为t分布,也称学生 t 分布(student’s t)
设随机变量
Z
∼
N
(
0
,
1
)
Z\sim N(0,1)
Z∼N(0,1),
X
∼
χ
2
(
n
)
X\sim \chi^2(n)
X∼χ2(n),且Z与X独立,则称
T
=
Z
X
/
n
T=\frac{Z}{\sqrt{X/n}}
T=X/nZ 服从自由度为n的 t 分布,记为
T
∼
t
(
n
)
T \sim t(n)
T∼t(n)
curve(dnorm(x,0,1),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=1)
abline(h=0)
segments(0,0,0,dnorm(0),col="blue",lty=2)
curve(dt(x,5),from=-4,to=4,add=TRUE,lty=2,col=2)
curve(dt(x,2),from=-4,to=4,add=TRUE,lty=3,col=4)
legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,col=c(1,2,4))
F 分布
F分布通常比较不同总体的方差是否有显著差异
F分布的概率即为曲线下面积
F分布(F-distribution)是为纪念著名统计学 R.A.Fisher 以其姓氏的第一个字母而命名.
F分布是两个 χ 2 \chi^2 χ2分布变量的比. 设 U ∼ χ 2 ( n 1 ) , V ∼ χ 2 ( n 2 ) U \sim \chi^2(n_1), V \sim \chi^2(n_2) U∼χ2(n1),V∼χ2(n2),且 U U U 和 V V V 相互独立. 则 F = U / n 1 V / n 2 F=\frac{U/n_1}{V/n_2} F=V/n2U/n1 服从自由度为 n 1 n_1 n1 和 n 2 n_2 n2 的F分布,记为 F ∼ F ( n 1 , n 2 ) F \sim F(n_1,n_2) F∼F(n1,n2)
不同自由度F分布曲线
curve(df(x,10,20),from=0,to=5,xlim=c(0,5),xlab="F",ylab="f(x)",lty=1,col=1)
curve(df(x,5,10), from=0, to=5, add=TRUE, lty=2, col=2)
curve(df(x,3,5), from=0, to=5, add=TRUE, lty=3, col=4)
abline(h=0,v=0)
legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,col=c(1,2,4))
案例
- 分子自由度为10,分母自由度为8, F F F 值小于3的概率 0.9335491 0.9335491 0.9335491
pf(3,df1=10,df2=8)
- 分子自由度为18,分母自由度为15, F F F 值大于2.5的概率 0.03944963 0.03944963 0.03944963
1-pf(2.5,df1=18,df2=15)
- 分子自由度为25,分母自由度为20, F F F 分布累积概率为0.95的 F F F 值为 2.07392 2.07392 2.07392
qf(0.95, df1=25, df2=20)
均匀分布
指数分布
离散型概率分布
离散型随机变量
X
X
X 的期望值是
X
X
X所有取值
x
i
(
i
=
1
,
2
,
…
)
x_i(i=1,2,\dots)
xi(i=1,2,…) 与其相应的概率
p
i
(
i
=
1
,
2
,
…
)
p_i(i=1,2,\dots)
pi(i=1,2,…)乘积之和,用
μ
\mu
μ 或
E
(
X
)
E(X)
E(X) 表示
μ
=
E
(
X
)
=
∑
i
x
i
p
i
\mu=E(X)=\sum_{i}x_ip_i
μ=E(X)=i∑xipi
离散型随机变量
X
X
X 的方差等于
(
x
i
−
μ
)
2
(x_i-\mu)^2
(xi−μ)2 与其相应的概率
p
i
p_i
pi 乘积之和,用
σ
2
\sigma^2
σ2 或
D
(
X
)
D(X)
D(X)表示
σ
2
=
D
(
X
)
=
∑
i
(
x
i
−
μ
)
2
p
i
\sigma^2=D(X)=\sum_{i}(x_i-\mu)^2p_i
σ2=D(X)=i∑(xi−μ)2pi
二项分布
在n次试验中,“成功”的次数对应一个离散型随机变量
X
X
X.
这样,在n次Bernoulli试验中,出现“成功”次数的概率分布就是二项分布,记为
X
∼
B
(
n
,
p
)
X\sim B(n,p)
X∼B(n,p)
n次试验中成功次数为x的概率可表示为:
P
(
X
=
x
)
=
C
n
x
p
x
q
(
n
−
x
)
,
x
=
0
,
1
,
2
,
…
,
n
P(X=x)=C_n^xp^xq^{(n-x)}, x=0,1,2,\dots, n
P(X=x)=Cnxpxq(n−x),x=0,1,2,…,n
二项分布的期望中和方差分别为:
μ
=
E
(
X
)
=
n
p
\mu=E(X)=np
μ=E(X)=np
σ
2
=
D
(
X
)
=
n
p
q
\sigma^2=D(X)=npq
σ2=D(X)=npq
dbinom(x,size,prob) # 密度函数
计算 X X X=某一值的概率
pbinom(x,size,prob) #分布函数
计算
X
≤
X\le
X≤ 某一值得累积概率
X
>
X>
X>某一值得概率为 1-pbinom(x,size,prob)
案例1
实验5次,成功的概率分别为0.1~0.9 的二项分布图
k=seq(0.1,0.9,0.1)
par(mfrow=c(3,3),mai=c(0.6,0.5,0.2,0.1))
for(i in 1:9){
barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,0.6),main=substitute(B(5,b),list(b=k[i])),col="lightblue")
}
案例2
已知一批产品得不合格率为6%,从中有放回地抽取5个,求5个产品中:
(1)没有不合格品得概率
P
(
X
=
0
)
=
C
n
0
(
0.06
)
0
(
0.94
)
5
=
0.733904
P(X=0)=C_n^0(0.06)^0(0.94)^5=0.733904
P(X=0)=Cn0(0.06)0(0.94)5=0.733904
dbinom(0,5,0.06)
(2)恰好有1个不合格得概率
P
(
X
=
1
)
=
C
n
1
(
0.06
)
1
(
0.94
)
4
=
0.2342247
P(X=1)=C_n^1(0.06)^1(0.94)^4=0.2342247
P(X=1)=Cn1(0.06)1(0.94)4=0.2342247
dbinom(1,5,0.06)
(3)有3个及3个以下不合格得概率
P
(
X
≤
3
)
=
1
−
C
5
3
(
0.06
)
3
(
0.94
)
2
=
0.9999383
P(X\le3)=1-C_5^3(0.06)^3(0.94)^2=0.9999383
P(X≤3)=1−C53(0.06)3(0.94)2=0.9999383
pbinom(3,5,0.06)
泊松分布
超几何分布
样本统计量的概率分布
总体参数(parameter)对总体特征的某个概括性度量
统计量(statistic)根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量
统计量的概率分布也称为抽样分布(sampling distribution),是由样本统计量的所有可能取值形成的相对频数分布
样本均值的概率分布
例题:
设一个总体含有5个元素(N),取值分别为
x
1
=
2
,
x
2
=
4
,
x
3
=
6
,
x
4
=
8
,
x
5
=
10
x_1=2,x_2=4,x_3=6,x_4=8,x_5=10
x1=2,x2=4,x3=6,x4=8,x5=10. 从该总体中采取重复抽样方法抽取样本量为
n
=
2
n=2
n=2 的所有可能样本,写出样本均值
x
ˉ
\bar{x}
xˉ 的概率分布
解:
总体为均匀分布,即
x
i
x_i
xi取每一个值的概率都相同.
总体均值
μ
=
∑
i
=
1
5
x
i
N
=
30
5
=
6
\mu=\frac{\sum_{i=1}^5x_i}{N}=\frac{30}{5}=6
μ=N∑i=15xi=530=6
总体方差
σ
2
=
∑
i
=
1
5
(
x
i
−
μ
)
2
N
=
40
5
=
8
\sigma^2=\frac{\sum_{i=1}^5(x_i-\mu)^2}{N}=\frac{40}{5}=8
σ2=N∑i=15(xi−μ)2=540=8
从总体中采取重复抽样方法抽取容量为 n=2 的随机样本,共有
5
2
=
25
5^2=25
52=25 个可能的样本. 计算出每一个样本的均值
x
i
ˉ
\bar{x_i}
xiˉ
每个样本被抽中的概率相同,均为
1
25
\frac{1}{25}
251
样本均值的均值(期望值)为
μ
x
ˉ
\mu_{\bar{x}}
μxˉ,
μ
x
ˉ
=
∑
i
=
1
25
x
ˉ
25
=
6
\mu_{\bar{x}}=\frac{\sum_{i=1}^{25}\bar{x}}{25}=6
μxˉ=25∑i=125xˉ=6
样本均值的方差为
σ
x
ˉ
2
\sigma_{\bar{x}}^2
σxˉ2,
σ
x
ˉ
2
=
∑
1
25
(
x
ˉ
−
μ
x
ˉ
)
2
25
=
4
\sigma_{\bar{x}}^2=\frac{\sum_{1}^{25}(\bar{x}-\mu_{\bar{x}})^2}{25}=4
σxˉ2=25∑125(xˉ−μxˉ)2=4
总体均值和方差 与 样本均值的均值和方差 对比
总体 | 样本均值 | |
---|---|---|
均值 | μ = 6 \mu=6 μ=6 | μ x ˉ = 6 \mu_{\bar{x}}=6 μxˉ=6 |
方差 | σ 2 = 8 \sigma^2=8 σ2=8 | σ x ˉ 2 = σ 2 n = 8 2 = 4 \sigma_{\bar{x}}^2= \frac{\sigma^2}{n}=\frac{8}{2}=4 σxˉ2=nσ2=28=4 |
证明
如果总体是正态分布,无论样本量大小,样本均值都近似服从正态分布
中心极限定理(central limit theorem)
如果总体不是正态分布,随着样本量 n n n 的增大(通常要求 n ≥ 30 n \ge 30 n≥30),样本均值的概率分布仍趋于正态分布,其分布的期望值为总体均值 μ \mu μ,方差为总体方差的 1 n \frac{1}{n} n1.
即 总体服从 x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2),从均值为 μ \mu μ、方差为 σ 2 \sigma^2 σ2的总体中抽取样本量为 n n n的所有随机样本,当 n n n 充分大(通常要求 n ≥ 30 n \ge 30 n≥30),样本均值 近似服从 期望值为 μ \mu μ,方差为 σ 2 n \frac{\sigma^2}{n} nσ2的正态分布,即 x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N(\mu,\frac{\sigma^2}{n}) xˉ∼N(μ,nσ2),等价地 ( x ˉ − μ ) σ n ∼ N ( 0 , 1 ) \frac{( \bar{x} - \mu)}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1) nσ(xˉ−μ)∼N(0,1)
比例(proportion)
是指总体(或样本)中具有某种属性得个体与全部个体之和得比值。
设总体有N个元素,具有某种属性得元素个数为
N
0
N_0
N0, 具有另一种属性得个数为
N
1
N_1
N1
总体比例
π
\pi
π 表示:
π
=
N
0
N
\pi = \frac{N_0}{N}
π=NN0, 或者
N
1
N
=
1
−
π
\frac{N_1}{N} = 1 - \pi
NN1=1−π
样本比例
p
p
p 表示:
p
=
n
0
n
p = \frac{n_0}{n}
p=nn0, 或者
n
1
n
=
1
−
p
\frac{n_1}{n} = 1 - p
nn1=1−p
标准误(standard error)
是指统计量分布得标准差,也称标准误差
用来衡量样本统计量得离散程度
在参数估计和假设检验中,用于衡量样本统计量与总体参数之间的差距的一个重要尺度
总体标准差 σ \sigma σ 已知
σ x ˉ = σ n \sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}} σxˉ=nσ
总体标准差 σ \sigma σ 未知
用样本标准差
s
s
s代替计算,这时计算的标准误也称为 估计标准误(standard error of estimation)
s
x
ˉ
=
s
n
s_{\bar{x}}=\frac{s}{\sqrt{n}}
sxˉ=ns