R语言--(10)--概率分布

期望值(expected value) 描述随机变量水平的统计量
方差 描述离散程度的统计量
分布函数 F ( x ) F(x) F(x)
概率密度函数 f ( x ) f(x) f(x)
分布律 P { X = x k } = p k , k = 1 , 2 , … , P\{X=x_k\} = p_k, \qquad k=1,2,\dots, P{X=xk}=pk,k=1,2,,
概率密度函数 f ( x ) f(x) f(x) 与 分布函数 F ( x ) F(x) F(x) 关系
F ( x ) = P { X ≤ x } = ∫ ∞ x f ( t ) d t , − ∞ < x < ∞ F(x)=P\{ X \le x \}= \int_{\infty}^{x}f(t)dt, \quad -\infty < x < \infty F(x)=P{Xx}=xf(t)dt,<x<

连续型概率分布

对于概率密度函数为 f ( x ) f(x) f(x) 的连续型随机变量,期望值为:
μ = E ( X ) = ∫ − ∞ ∞ x f ( x ) d x \mu=E(X)=\int_{-\infty}^{\infty}xf(x)dx μ=E(X)=xf(x)dx
对于概率密度函数为 f ( x ) f(x) f(x) 的连续型随机变量,方差 为:
σ 2 = D ( X ) = ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x \sigma^2=D(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx σ2=D(X)=(xμ)2f(x)dx

正态分布

正态分布:分布函数 F ( x ) F(x) F(x)
μ \mu μ是均值, σ 2 \sigma^2 σ2 是方差,对于任意的变量 x x x, 其正态分布的分布函数
F ( x ) = 1 2 π σ ∫ − ∞ x e x p { − ( t − μ ) 2 2 σ 2 } d t F(x)=\frac{1}{\sqrt{2\pi }\sigma} \int_{-\infty}^{x} exp\{ -\frac{(t-\mu)^2}{2 \sigma^2 } \}dt F(x)=2π σ1xexp{2σ2(tμ)2}dt

pnorm(x, mu, sigma)
参数描述
x向量
mu均值 μ \mu μ
sigma标准差 σ \sigma σ

正态分布:概率密度函数 f ( x ) f(x) f(x)
μ \mu μ是均值, σ 2 \sigma^2 σ2 是方差,对于任意的变量 x x x, 其正态分布的概率密度函数
f ( x ) = 1 2 π σ e x p { − ( t − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt{2\pi }\sigma} exp\{ -\frac{(t-\mu)^2}{2 \sigma^2 } \} f(x)=2π σ1exp{2σ2(tμ)2}

X服从参数为 μ \mu μ 均值 , σ 2 \sigma^2 σ2 方差 的正态分布
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)

dnorm(x, mu, sigma)
w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
x <- 44:76
lines(x, dnorm(x, mean(w), sd(w)), col = "red")

案例1:均值不同、方差相同得正态曲线

par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)
curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,col="black")
abline(h=0)
segments(-2,0,-2,dnorm(-2,-2,1),col="black")
curve(dnorm(x,2,1),from=-2,to=6,add=TRUE,lty=2,col="blue")
abline(h=0)
segments(2,0,2,dnorm(2,2,1),col="blue",lty=2)
legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,col=c("black","blue"),cex=0.8)

在这里插入图片描述

案例2:均值相同、方差不同的正态曲线

curve(dnorm(x,0,sqrt(1/2)),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=2)
abline(h=0)
segments(0,0,0,dnorm(0,mean=0,sd=sqrt(1/2)),col="blue",lty=2)
curve(dnorm(x,0,1),from=-4,to=4,add=TRUE,lty=2)
curve(dnorm(x,0,sqrt(2)),from=-4,to=4,add=TRUE,lty=3,col=4)
legend(x="topright",legend=c("N(0,0.5)","N(0,1)","N(0,2)"),lty=1:3,inset=0.02,col=c(2,"black",4))

在这里插入图片描述

标准正态分布

对于任意一个服从正态分布的随机变量,通过 Z = ( x − μ ) σ Z=\frac{(x-\mu)}{\sigma} Z=σ(xμ) 标准化后的新随机变量服从均值为0,标准差为1的标准正态分布(standard normal distribution),记为 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1)
标准正态分布的概率密度函数用
φ ( x ) = 1 2 π e − 1 2 x 2 , − ∞ < x < ∞ \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}, \qquad -\infty<x<\infty φ(x)=2π 1e21x2,<x<

案例

(1) X ∼ N ( 50 , 1 0 2 ) X\sim N(50,10^2) XN(50,102),求 P ( X ≤ 40 ) P(X\le40) P(X40) P ( 30 ≤ X ≤ 40 ) P(30 \le X \le 40) P(30X40)
P ( X ≤ 40 ) = 0.1586553 P(X\le40)=0.1586553 P(X40)=0.1586553

pnorm(40,mean=50,sd=10)

P ( 30 ≤ X ≤ 40 ) = 0.1359051 P(30 \le X\le40)=0.1359051 P(30X40)=0.1359051

pnorm(40,mean=50,sd=10)-pnorm(30,mean=50,sd=10)

(2) Z ∼ N ( 0 , 1 ) Z \sim N(0,1) ZN(0,1),求 P ( Z ≤ 2.5 ) P(Z\le2.5) P(Z2.5) P ( − 1.5 ≤ Z ≤ 2 ) P(-1.5 \le Z \le 2) P(1.5Z2)
P ( Z ≤ 2.5 ) = 0.9937903 P(Z \le 2.5) =0.9937903 P(Z2.5)=0.9937903

pnorm(2.5,mean=0,sd=1)

P ( − 1.5 ≤ Z ≤ 2 ) = 0.04405707 P(-1.5 \le Z \le 2)= 0.04405707 P(1.5Z2)=0.04405707

pnorm(2,mean=0,sd=1) - pnorm(1.5,mean=0,sd=1)

(3)标准正态分布累积概率为0.025时的反函数值z
z = − 1.959964 z =-1.959964 z=1.959964

qnorm(0.025,mean=0,sd=1)

χ 2 \chi^2 χ2 分布

χ 2 \chi^2 χ2 分布(chi-square distribution) 是由Abbe于1863年首先提出的,后来由 Hermert 和 K.Pearson 分别于 1875年和1900年推导出来.
n个独立标准正态随机变量平方和的分布称为具有n个自由度的 χ 2 \chi^2 χ2分布,记为 χ 2 ( n ) \chi^2(n) χ2(n)
设Z为标准正态随机变量,令 X = Z 2 X=Z^2 X=Z2,则X服从自由度为1的 χ 2 \chi^2 χ2的分布,即 X ∼ χ 2 ( 1 ) X\sim \chi^2(1) Xχ2(1),一般,对于n个独立标准正态随机变量 Z 1 2 , Z 2 2 , … , Z n 2 Z_1^2,Z_2^2,\dots,Z_n^2 Z12,Z22,Zn2随机变量 X = ∑ i = 1 n Z i 2 X=\sum_{i=1}^{n}Z_i^2 X=i=1nZi2的分布为具有n个自由度的 χ 2 \chi^2 χ2分布,
记为 X ∼ χ 2 ( n ) X\sim \chi^2(n) Xχ2(n)

不同自由度的 χ 2 \chi^2 χ2分布
par(mfrow=c(2,3),mai=c(0.6,0.6,0.2,0.1))
n=5000
df=c(2,5,10,15,20,30)
for(i in 1:6){
	x <- rchisq(n,df[i])
	hist(x,xlim=c(0,60),prob=T,col='lightblue',lab=expression(chi^2),ylab="Density",main=paste("df=",df[i]))
	curve(dchisq(x,df[i]),col=2,add=T)
}

在这里插入图片描述

案例

(1)自由度为15, χ 2 \chi^2 χ2值小于10的概率 0.1802601 0.1802601 0.1802601

pchisq(10,df=15)

(2)自由度为25, χ 2 \chi^2 χ2值大于15的概率 0.9413826 0.9413826 0.9413826

1 - pchisq(15,df=25)

(3)自由度为10, χ 2 \chi^2 χ2分布右尾概率为0.05的反函数值 18.30704 18.30704 18.30704

qchisq(0.95,df=10)

t 分布

t分布(t-distribution)的提出者是 William Gosset, 由于他经常用笔名"student"发表文章,用 t t t 表示样本均值经标准化后的新随机变量,因此称为t分布,也称学生 t 分布(student’s t)
设随机变量 Z ∼ N ( 0 , 1 ) Z\sim N(0,1) ZN(0,1), X ∼ χ 2 ( n ) X\sim \chi^2(n) Xχ2(n),且Z与X独立,则称 T = Z X / n T=\frac{Z}{\sqrt{X/n}} T=X/n Z 服从自由度为n的 t 分布,记为 T ∼ t ( n ) T \sim t(n) Tt(n)

curve(dnorm(x,0,1),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=1)
abline(h=0)
segments(0,0,0,dnorm(0),col="blue",lty=2)
curve(dt(x,5),from=-4,to=4,add=TRUE,lty=2,col=2)
curve(dt(x,2),from=-4,to=4,add=TRUE,lty=3,col=4)
legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,col=c(1,2,4))

在这里插入图片描述

F 分布

F分布通常比较不同总体的方差是否有显著差异
F分布的概率即为曲线下面积
F分布(F-distribution)是为纪念著名统计学 R.A.Fisher 以其姓氏的第一个字母而命名.

F分布是两个 χ 2 \chi^2 χ2分布变量的比. 设 U ∼ χ 2 ( n 1 ) , V ∼ χ 2 ( n 2 ) U \sim \chi^2(n_1), V \sim \chi^2(n_2) Uχ2(n1),Vχ2(n2),且 U U U V V V 相互独立. 则 F = U / n 1 V / n 2 F=\frac{U/n_1}{V/n_2} F=V/n2U/n1 服从自由度为 n 1 n_1 n1 n 2 n_2 n2 的F分布,记为 F ∼ F ( n 1 , n 2 ) F \sim F(n_1,n_2) FF(n1,n2)

不同自由度F分布曲线

curve(df(x,10,20),from=0,to=5,xlim=c(0,5),xlab="F",ylab="f(x)",lty=1,col=1)
curve(df(x,5,10), from=0, to=5, add=TRUE, lty=2, col=2)
curve(df(x,3,5), from=0, to=5, add=TRUE, lty=3, col=4)
abline(h=0,v=0)
legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,col=c(1,2,4))

在这里插入图片描述

案例

  1. 分子自由度为10,分母自由度为8, F F F 值小于3的概率 0.9335491 0.9335491 0.9335491
pf(3,df1=10,df2=8)
  1. 分子自由度为18,分母自由度为15, F F F 值大于2.5的概率 0.03944963 0.03944963 0.03944963
1-pf(2.5,df1=18,df2=15)
  1. 分子自由度为25,分母自由度为20, F F F 分布累积概率为0.95的 F F F 值为 2.07392 2.07392 2.07392
qf(0.95, df1=25, df2=20)

均匀分布

指数分布

离散型概率分布

离散型随机变量 X X X期望值 X X X所有取值 x i ( i = 1 , 2 , …   ) x_i(i=1,2,\dots) xi(i=1,2,) 与其相应的概率 p i ( i = 1 , 2 , …   ) p_i(i=1,2,\dots) pi(i=1,2,)乘积之和,用 μ \mu μ E ( X ) E(X) E(X) 表示
μ = E ( X ) = ∑ i x i p i \mu=E(X)=\sum_{i}x_ip_i μ=E(X)=ixipi
离散型随机变量 X X X方差等于 ( x i − μ ) 2 (x_i-\mu)^2 (xiμ)2 与其相应的概率 p i p_i pi 乘积之和,用 σ 2 \sigma^2 σ2 D ( X ) D(X) D(X)表示
σ 2 = D ( X ) = ∑ i ( x i − μ ) 2 p i \sigma^2=D(X)=\sum_{i}(x_i-\mu)^2p_i σ2=D(X)=i(xiμ)2pi

二项分布

在n次试验中,“成功”的次数对应一个离散型随机变量 X X X.
这样,在n次Bernoulli试验中,出现“成功”次数的概率分布就是二项分布,记为 X ∼ B ( n , p ) X\sim B(n,p) XB(n,p)
n次试验中成功次数为x的概率可表示为:
P ( X = x ) = C n x p x q ( n − x ) , x = 0 , 1 , 2 , … , n P(X=x)=C_n^xp^xq^{(n-x)}, x=0,1,2,\dots, n P(X=x)=Cnxpxq(nx),x=0,1,2,,n
二项分布的期望中和方差分别为:
μ = E ( X ) = n p \mu=E(X)=np μ=E(X)=np
σ 2 = D ( X ) = n p q \sigma^2=D(X)=npq σ2=D(X)=npq

dbinom(x,size,prob) # 密度函数

计算 X X X=某一值的概率

pbinom(x,size,prob) #分布函数

计算 X ≤ X\le X 某一值得累积概率
X > X> X>某一值得概率为 1-pbinom(x,size,prob)

案例1

实验5次,成功的概率分别为0.1~0.9 的二项分布图

k=seq(0.1,0.9,0.1)
par(mfrow=c(3,3),mai=c(0.6,0.5,0.2,0.1))
for(i in 1:9){
	barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,0.6),main=substitute(B(5,b),list(b=k[i])),col="lightblue")
}

在这里插入图片描述

案例2

已知一批产品得不合格率为6%,从中有放回地抽取5个,求5个产品中:
(1)没有不合格品得概率
P ( X = 0 ) = C n 0 ( 0.06 ) 0 ( 0.94 ) 5 = 0.733904 P(X=0)=C_n^0(0.06)^0(0.94)^5=0.733904 P(X=0)=Cn0(0.06)0(0.94)5=0.733904

dbinom(0,5,0.06)

(2)恰好有1个不合格得概率
P ( X = 1 ) = C n 1 ( 0.06 ) 1 ( 0.94 ) 4 = 0.2342247 P(X=1)=C_n^1(0.06)^1(0.94)^4=0.2342247 P(X=1)=Cn1(0.06)1(0.94)4=0.2342247

dbinom(1,5,0.06)

(3)有3个及3个以下不合格得概率
P ( X ≤ 3 ) = 1 − C 5 3 ( 0.06 ) 3 ( 0.94 ) 2 = 0.9999383 P(X\le3)=1-C_5^3(0.06)^3(0.94)^2=0.9999383 P(X3)=1C53(0.06)3(0.94)2=0.9999383

pbinom(3,5,0.06)

泊松分布

超几何分布

样本统计量的概率分布

总体参数(parameter)对总体特征的某个概括性度量

统计量(statistic)根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量

统计量的概率分布也称为抽样分布(sampling distribution),是由样本统计量的所有可能取值形成的相对频数分布

样本均值的概率分布

例题:
设一个总体含有5个元素(N),取值分别为 x 1 = 2 , x 2 = 4 , x 3 = 6 , x 4 = 8 , x 5 = 10 x_1=2,x_2=4,x_3=6,x_4=8,x_5=10 x1=2,x2=4,x3=6,x4=8,x5=10. 从该总体中采取重复抽样方法抽取样本量为 n = 2 n=2 n=2 的所有可能样本,写出样本均值 x ˉ \bar{x} xˉ 的概率分布

解:
总体为均匀分布,即 x i x_i xi取每一个值的概率都相同.
总体均值 μ = ∑ i = 1 5 x i N = 30 5 = 6 \mu=\frac{\sum_{i=1}^5x_i}{N}=\frac{30}{5}=6 μ=Ni=15xi=530=6
总体方差 σ 2 = ∑ i = 1 5 ( x i − μ ) 2 N = 40 5 = 8 \sigma^2=\frac{\sum_{i=1}^5(x_i-\mu)^2}{N}=\frac{40}{5}=8 σ2=Ni=15(xiμ)2=540=8
从总体中采取重复抽样方法抽取容量为 n=2 的随机样本,共有 5 2 = 25 5^2=25 52=25 个可能的样本. 计算出每一个样本的均值 x i ˉ \bar{x_i} xiˉ
在这里插入图片描述
每个样本被抽中的概率相同,均为 1 25 \frac{1}{25} 251
样本均值的均值(期望值)为 μ x ˉ \mu_{\bar{x}} μxˉ μ x ˉ = ∑ i = 1 25 x ˉ 25 = 6 \mu_{\bar{x}}=\frac{\sum_{i=1}^{25}\bar{x}}{25}=6 μxˉ=25i=125xˉ=6
样本均值的方差为 σ x ˉ 2 \sigma_{\bar{x}}^2 σxˉ2
σ x ˉ 2 = ∑ 1 25 ( x ˉ − μ x ˉ ) 2 25 = 4 \sigma_{\bar{x}}^2=\frac{\sum_{1}^{25}(\bar{x}-\mu_{\bar{x}})^2}{25}=4 σxˉ2=25125(xˉμxˉ)2=4
总体均值和方差 与 样本均值的均值和方差 对比

总体样本均值
均值 μ = 6 \mu=6 μ=6 μ x ˉ = 6 \mu_{\bar{x}}=6 μxˉ=6
方差 σ 2 = 8 \sigma^2=8 σ2=8 σ x ˉ 2 = σ 2 n = 8 2 = 4 \sigma_{\bar{x}}^2= \frac{\sigma^2}{n}=\frac{8}{2}=4 σxˉ2=nσ2=28=4

在这里插入图片描述
证明
如果总体是正态分布,无论样本量大小,样本均值都近似服从正态分布

中心极限定理(central limit theorem)

如果总体不是正态分布,随着样本量 n n n 的增大(通常要求 n ≥ 30 n \ge 30 n30),样本均值的概率分布仍趋于正态分布,其分布的期望值为总体均值 μ \mu μ,方差为总体方差的 1 n \frac{1}{n} n1.

即 总体服从 x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2),从均值为 μ \mu μ、方差为 σ 2 \sigma^2 σ2的总体中抽取样本量为 n n n的所有随机样本,当 n n n 充分大(通常要求 n ≥ 30 n \ge 30 n30),样本均值 近似服从 期望值为 μ \mu μ,方差为 σ 2 n \frac{\sigma^2}{n} nσ2的正态分布,即 x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N(\mu,\frac{\sigma^2}{n}) xˉN(μ,nσ2),等价地 ( x ˉ − μ ) σ n ∼ N ( 0 , 1 ) \frac{( \bar{x} - \mu)}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1) n σ(xˉμ)N(0,1)

比例(proportion)

是指总体(或样本)中具有某种属性得个体与全部个体之和得比值。
设总体有N个元素,具有某种属性得元素个数为 N 0 N_0 N0, 具有另一种属性得个数为 N 1 N_1 N1

总体比例 π \pi π 表示: π = N 0 N \pi = \frac{N_0}{N} π=NN0, 或者 N 1 N = 1 − π \frac{N_1}{N} = 1 - \pi NN1=1π
样本比例 p p p 表示: p = n 0 n p = \frac{n_0}{n} p=nn0, 或者 n 1 n = 1 − p \frac{n_1}{n} = 1 - p nn1=1p

标准误(standard error)

是指统计量分布得标准差,也称标准误差
用来衡量样本统计量得离散程度
在参数估计和假设检验中,用于衡量样本统计量与总体参数之间的差距的一个重要尺度

总体标准差 σ \sigma σ 已知

σ x ˉ = σ n \sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}} σxˉ=n σ

总体标准差 σ \sigma σ 未知

用样本标准差 s s s代替计算,这时计算的标准误也称为 估计标准误(standard error of estimation)
s x ˉ = s n s_{\bar{x}}=\frac{s}{\sqrt{n}} sxˉ=n s

  • 1
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值