R语言--(10)--概率分布

最新推荐文章于 2024-04-17 22:13:15 发布

Mikowoo007

最新推荐文章于 2024-04-17 22:13:15 发布

阅读量4.2k

点赞数 1

分类专栏： R

本文链接：https://blog.csdn.net/Mikowoo007/article/details/109559383

版权

R 专栏收录该内容

11 篇文章 6 订阅

订阅专栏

期望值(expected value) 描述随机变量水平的统计量
方差描述离散程度的统计量
分布函数 $F (x)$
概率密度函数 $f (x)$
分布律 $P\{X=x_k\} = p_k, \qquad k=1,2,\dots,$
概率密度函数 $f (x)$ 与分布函数 $F (x)$ 关系
$F(x)=P\{ X \le x \}= \int_{\infty}^{x}f(t)dt, \quad -\infty < x < \infty$

连续型概率分布

对于概率密度函数为 $f (x)$ 的连续型随机变量，期望值为:
$\mu=E(X)=\int_{-\infty}^{\infty}xf(x)dx$
对于概率密度函数为 $f (x)$ 的连续型随机变量，方差为:
$\sigma^2=D(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx$

正态分布

正态分布：分布函数 $F (x)$
设 $\mu$ 是均值， $\sigma^2$ 是方差，对于任意的变量 $x$ , 其正态分布的分布函数：
$F(x)=\frac{1}{\sqrt{2\pi }\sigma} \int_{-\infty}^{x} exp\{ -\frac{(t-\mu)^2}{2 \sigma^2 } \}dt$

pnorm(x, mu, sigma)

参数	描述
x	向量
mu	均值 $\mu$
sigma	标准差 $\sigma$

正态分布：概率密度函数 $f (x)$
设 $\mu$ 是均值， $\sigma^2$ 是方差，对于任意的变量 $x$ , 其正态分布的概率密度函数：
$f(x)=\frac{1}{\sqrt{2\pi }\sigma} exp\{ -\frac{(t-\mu)^2}{2 \sigma^2 } \}$

X服从参数为 $\mu$ 均值 , $\sigma^2$ 方差的正态分布
$X\sim N(\mu,\sigma^2)$

dnorm(x, mu, sigma)

w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
x <- 44:76
lines(x, dnorm(x, mean(w), sd(w)), col = "red")

案例1：均值不同、方差相同得正态曲线

par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)
curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,col="black")
abline(h=0)
segments(-2,0,-2,dnorm(-2,-2,1),col="black")
curve(dnorm(x,2,1),from=-2,to=6,add=TRUE,lty=2,col="blue")
abline(h=0)
segments(2,0,2,dnorm(2,2,1),col="blue",lty=2)
legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,col=c("black","blue"),cex=0.8)

在这里插入图片描述

案例2：均值相同、方差不同的正态曲线

curve(dnorm(x,0,sqrt(1/2)),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=2)
abline(h=0)
segments(0,0,0,dnorm(0,mean=0,sd=sqrt(1/2)),col="blue",lty=2)
curve(dnorm(x,0,1),from=-4,to=4,add=TRUE,lty=2)
curve(dnorm(x,0,sqrt(2)),from=-4,to=4,add=TRUE,lty=3,col=4)
legend(x="topright",legend=c("N(0,0.5)","N(0,1)","N(0,2)"),lty=1:3,inset=0.02,col=c(2,"black",4))

在这里插入图片描述

标准正态分布

对于任意一个服从正态分布的随机变量，通过 $Z=\frac{(x-\mu)}{\sigma}$ 标准化后的新随机变量服从均值为0，标准差为1的标准正态分布(standard normal distribution)，记为 $X\sim N(0,1)$
标准正态分布的概率密度函数用
$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}, \qquad -\infty<x<\infty$

案例

（1） $X\sim N(50,10^2)$ ,求 $P(X\le40)$ 和 $\le X \le 40)$
$P(X\le40)=0.1586553$

pnorm(40,mean=50,sd=10)

$\le X\le40)=0.1359051$

pnorm(40,mean=50,sd=10)-pnorm(30,mean=50,sd=10)

（2） $\sim N(0,1)$ ，求 $P(Z\le2.5)$ 和 $\le Z \le 2)$
$\le 2.5) =0.9937903$

pnorm(2.5,mean=0,sd=1)

$\le Z \le 2)= 0.04405707$

pnorm(2,mean=0,sd=1) - pnorm(1.5,mean=0,sd=1)

（3）标准正态分布累积概率为0.025时的反函数值z
$z = - 1.959964$

qnorm(0.025,mean=0,sd=1)

$\chi^2$ 分布

$\chi^2$ 分布(chi-square distribution) 是由Abbe于1863年首先提出的，后来由 Hermert 和 K.Pearson 分别于 1875年和1900年推导出来.
n个独立标准正态随机变量平方和的分布称为具有n个自由度的 $\chi^2$ 分布，记为 $\chi^2(n)$
设Z为标准正态随机变量，令 $X=Z^2$ ，则X服从自由度为1的 $\chi^2$ 的分布，即 $X\sim \chi^2(1)$ ，一般，对于n个独立标准正态随机变量 $Z_1^2,Z_2^2,\dots，Z_n^2$ 随机变量 $X=\sum_{i=1}^{n}Z_i^2$ 的分布为具有n个自由度的 $\chi^2$ 分布,
记为 $X\sim \chi^2(n)$

不同自由度的 $\chi^2$ 分布

par(mfrow=c(2,3),mai=c(0.6,0.6,0.2,0.1))
n=5000
df=c(2,5,10,15,20,30)
for(i in 1:6){
	x <- rchisq(n,df[i])
	hist(x,xlim=c(0,60),prob=T,col='lightblue',lab=expression(chi^2),ylab="Density",main=paste("df=",df[i]))
	curve(dchisq(x,df[i]),col=2,add=T)
}

在这里插入图片描述

案例

（1）自由度为15， $\chi^2$ 值小于10的概率 $0.1802601$

pchisq(10,df=15)

（2）自由度为25， $\chi^2$ 值大于15的概率 $0.9413826$

1 - pchisq(15,df=25)

（3）自由度为10， $\chi^2$ 分布右尾概率为0.05的反函数值 $18.30704$

qchisq(0.95,df=10)

t 分布

t分布（t-distribution）的提出者是 William Gosset, 由于他经常用笔名"student"发表文章，用 $t$ 表示样本均值经标准化后的新随机变量，因此称为t分布，也称学生 t 分布（student’s t）
设随机变量 $Z\sim N(0,1)$ , $X\sim \chi^2(n)$ ，且Z与X独立，则称 $T=\frac{Z}{\sqrt{X/n}}$ 服从自由度为n的 t 分布，记为 $\sim t(n)$

curve(dnorm(x,0,1),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=1)
abline(h=0)
segments(0,0,0,dnorm(0),col="blue",lty=2)
curve(dt(x,5),from=-4,to=4,add=TRUE,lty=2,col=2)
curve(dt(x,2),from=-4,to=4,add=TRUE,lty=3,col=4)
legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,col=c(1,2,4))

在这里插入图片描述

F 分布

F分布通常比较不同总体的方差是否有显著差异
F分布的概率即为曲线下面积
F分布（F-distribution）是为纪念著名统计学 R.A.Fisher 以其姓氏的第一个字母而命名.

F分布是两个 $\chi^2$ 分布变量的比. 设 $\sim \chi^2(n_1), V \sim \chi^2(n_2)$ ，且 $U$ 和 $V$ 相互独立. 则 $F=\frac{U/n_1}{V/n_2}$ 服从自由度为 $n_1$ 和 $n_2$ 的F分布，记为 $\sim F(n_1,n_2)$

不同自由度F分布曲线

curve(df(x,10,20),from=0,to=5,xlim=c(0,5),xlab="F",ylab="f(x)",lty=1,col=1)
curve(df(x,5,10), from=0, to=5, add=TRUE, lty=2, col=2)
curve(df(x,3,5), from=0, to=5, add=TRUE, lty=3, col=4)
abline(h=0,v=0)
legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,col=c(1,2,4))

在这里插入图片描述

案例

分子自由度为10，分母自由度为8， $F$ 值小于3的概率 $0.9335491$

pf(3,df1=10,df2=8)

分子自由度为18，分母自由度为15， $F$ 值大于2.5的概率 $0.03944963$

1-pf(2.5,df1=18,df2=15)

分子自由度为25，分母自由度为20， $F$ 分布累积概率为0.95的 $F$ 值为 $2.07392$

qf(0.95, df1=25, df2=20)

均匀分布

指数分布

离散型概率分布

离散型随机变量 $X$ 的期望值是 $X$ 所有取值 $x_i(i=1,2,\dots)$ 与其相应的概率 $p_i(i=1,2,\dots)$ 乘积之和，用 $\mu$ 或 $E (X)$ 表示
$\mu=E(X)=\sum_{i}x_ip_i$
离散型随机变量 $X$ 的方差等于 $(x_i-\mu)^2$ 与其相应的概率 $p_i$ 乘积之和，用 $\sigma^2$ 或 $D (X)$ 表示
$\sigma^2=D(X)=\sum_{i}(x_i-\mu)^2p_i$

二项分布

在n次试验中，“成功”的次数对应一个离散型随机变量 $X$ .
这样，在n次Bernoulli试验中，出现“成功”次数的概率分布就是二项分布，记为 $X\sim B(n,p)$
n次试验中成功次数为x的概率可表示为：
$P(X=x)=C_n^xp^xq^{(n-x)}, x=0,1,2,\dots, n$
二项分布的期望中和方差分别为：
$\mu=E(X)=np$
$\sigma^2=D(X)=npq$

dbinom(x,size,prob) # 密度函数

计算 $X$ =某一值的概率

pbinom(x,size,prob) #分布函数

计算 $X\le$ 某一值得累积概率
$X >$ 某一值得概率为 1-pbinom(x,size,prob)

案例1

实验5次，成功的概率分别为0.1~0.9 的二项分布图

k=seq(0.1,0.9,0.1)
par(mfrow=c(3,3),mai=c(0.6,0.5,0.2,0.1))
for(i in 1:9){
	barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,0.6),main=substitute(B(5,b),list(b=k[i])),col="lightblue")
}

在这里插入图片描述

案例2

已知一批产品得不合格率为6%，从中有放回地抽取5个，求5个产品中：
（1）没有不合格品得概率
$P(X=0)=C_n^0(0.06)^0(0.94)^5=0.733904$

dbinom(0,5,0.06)

（2）恰好有1个不合格得概率
$P(X=1)=C_n^1(0.06)^1(0.94)^4=0.2342247$

dbinom(1,5,0.06)

（3）有3个及3个以下不合格得概率
$P(X\le3)=1-C_5^3(0.06)^3(0.94)^2=0.9999383$

pbinom(3,5,0.06)

泊松分布

超几何分布

样本统计量的概率分布

总体参数（parameter）对总体特征的某个概括性度量

统计量（statistic）根据样本数据计算的用于推断总体的某些量，是对样本特征的某个概括性度量

统计量的概率分布也称为抽样分布（sampling distribution），是由样本统计量的所有可能取值形成的相对频数分布

样本均值的概率分布

例题：
设一个总体含有5个元素(N)，取值分别为 $x_1=2,x_2=4,x_3=6,x_4=8,x_5=10$ . 从该总体中采取重复抽样方法抽取样本量为 $n = 2$ 的所有可能样本，写出样本均值 $\bar{x}$ 的概率分布

解：
总体为均匀分布，即 $x_i$ 取每一个值的概率都相同.
总体均值 $\mu=\frac{\sum_{i=1}^5x_i}{N}=\frac{30}{5}=6$
总体方差 $\sigma^2=\frac{\sum_{i=1}^5(x_i-\mu)^2}{N}=\frac{40}{5}=8$
从总体中采取重复抽样方法抽取容量为 n=2 的随机样本，共有 $5^2=25$ 个可能的样本. 计算出每一个样本的均值 $\bar{x_i}$
在这里插入图片描述
每个样本被抽中的概率相同，均为 $\frac{1}{25}$
样本均值的均值(期望值)为 $\mu_{\bar{x}}$ ， $\mu_{\bar{x}}=\frac{\sum_{i=1}^{25}\bar{x}}{25}=6$
样本均值的方差为 $\sigma_{\bar{x}}^2$ ，
$\sigma_{\bar{x}}^2=\frac{\sum_{1}^{25}(\bar{x}-\mu_{\bar{x}})^2}{25}=4$
总体均值和方差与样本均值的均值和方差对比

	总体	样本均值
均值	$\mu=6$	$\mu_{\bar{x}}=6$
方差	$\sigma^2=8$	$\sigma_{\bar{x}}^2= \frac{\sigma^2}{n}=\frac{8}{2}=4$

在这里插入图片描述
证明
如果总体是正态分布，无论样本量大小，样本均值都近似服从正态分布

中心极限定理(central limit theorem)

如果总体不是正态分布，随着样本量 $n$ 的增大（通常要求 $\ge 30$ ）,样本均值的概率分布仍趋于正态分布，其分布的期望值为总体均值 $\mu$ ，方差为总体方差的 $\frac{1}{n}$ .

即总体服从 $\sim N(\mu, \sigma^2)$ ,从均值为 $\mu$ 、方差为 $\sigma^2$ 的总体中抽取样本量为 $n$ 的所有随机样本，当 $n$ 充分大（通常要求 $\ge 30$ ），样本均值近似服从期望值为 $\mu$ ，方差为 $\frac{\sigma^2}{n}$ 的正态分布，即 $\bar{x} \sim N(\mu,\frac{\sigma^2}{n})$ ，等价地 $\frac{( \bar{x} - \mu)}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)$