独立同分布(iid)随机变量的一些趣题

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步

在概率论中,一组独立同分布的随机变量 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn出现的频率很高。独立同分布,independent and identically distributed ,一般缩写为i.i.d。在概率论中,如果随机变量具有相同的概率分布,并且随机变量之间相互独立,那么这组随机变量就满足独立同分布。本文特意为大家整理一下与一组独立同分布的随机变量 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn相关的一些有意思的小问题。

1.Case1

已知随机变量 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn相互独立且同分布,方差为 σ 2 \sigma^2 σ2 y = 1 n ∑ 1 n x i y = \frac{1}{n} \sum_1^nx_i y=n11nxi,求 C o v ( x 1 , y ) Cov(x_1,y) Cov(x1,y)

解答过程:
E ( x 1 ) = E ( y ) = k E(x_1) = E(y) = k E(x1)=E(y)=k ,则有
C o v ( x 1 , y ) = E ( x 1 y ) − E ( x 1 ) E ( y ) = E ( x 1 y ) − k 2 \begin{aligned} Cov(x_1,y) & =E(x_1y) - E(x_1)E(y) \\ & = E(x_1y) - k^2 \end{aligned} Cov(x1,y)=E(x1y)E(x1)E(y)=E(x1y)k2

E ( x 1 y ) = 1 n E ( x 1 2 + ∑ i = 2 n x 1 x i ) = 1 n E ( x 2 ) + 1 n ∑ i = 2 n E ( x 1 x i ) = σ 2 + k 2 n + n − 1 n k 2 \begin{aligned} E(x_1y) & = \frac{1}{n}E(x_1^2+\sum_{i=2}^nx_1x_i) \\ & = \frac{1}{n}E(x^2) + \frac{1}{n}\sum_{i=2}^nE(x_1x_i) \\ & = \frac{\sigma^2 + k^2}{n} + \frac{n-1}{n}k^2 \end{aligned} E(x1y)=n1E(x12+i=2nx1xi)=n1E(x2)+n1i=2nE(x1xi)=nσ2+k2+nn1k2

将下面的式子带入,很容易得到:
C o v ( x 1 , y ) = σ 2 n Cov(x_1,y) = \frac{\sigma^2}{n} Cov(x1,y)=nσ2

2.Case2

已知随机变量 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn相互独立且同分布,求 y = x 1 + x 2 + ⋯ + x n y=x_1+x_2+\cdots+x_n y=x1+x2++xn的概率密度函数,均值,方差。
解答过程:
先看 n = 2 n=2 n=2的情况,此时 y = x 1 + x 2 y=x_1+x_2 y=x1+x2
p ( y ) = P { Y ≤ y } = p { x 1 + x 2 ≤ y } = ∫ − ∞ + ∞ f ( x ) ∫ − ∞ y − x f ( z ) d z p(y) = P\{Y \le y\} = p\{x_1+x_2 \le y\} = \int _{-\infty}^{+\infty}f(x)\int_{-\infty}^{y-x}f(z)dz p(y)=P{Yy}=p{x1+x2y}=+f(x)yxf(z)dz
则概率密度 p 2 ( y ) = ∫ − ∞ + ∞ f ( x ) f ( y − x ) d y p_2(y) = \int_{-\infty}^{+\infty}f(x)f(y-x)dy p2(y)=+f(x)f(yx)dy

对于 n = 3 n=3 n=3
p 3 ( y ) = ∫ − ∞ + ∞ p 2 ( x ) f ( y − x ) d x = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( z ) f ( x − z ) d z f ( y − x ) d x p_3(y)=\int_{-\infty}^{+\infty}p_2(x)f(y-x)dx=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(z)f(x-z)dzf(y-x)dx p3(y)=+p2(x)f(yx)dx=++f(z)f(xz)dzf(yx)dx

以此类推,且统一变量字母,可得:
p n ( y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ f ( x 1 ) f ( x 2 − x 1 ) f ( x 3 − x 2 ) ⋯ f ( x n − 1 − x n − 2 ) f ( y − x n − 1 ) d x 1 d x 2 ⋯ d x n − 1 p_n(y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}f(x_1)f(x_2-x_1)f(x_3-x_2)\cdots f(x_{n-1}-x_{n-2})f(y-x_{n-1})dx_1dx_2\cdots dx_{n-1} pn(y)=+++f(x1)f(x2x1)f(x3x2)f(xn1xn2)f(yxn1)dx1dx2dxn1

均值很容易看出来是为 n E x i nEx_i nExi,下面看看求方差。
D ( y ) = E ( y 2 ) − E 2 ( y ) = E ( x 1 + x 2 + ⋯ + x n ) 2 − ( n E x ) 2 = E ( x 1 2 + x 2 2 + ⋯ + x n 2 + 2 ∑ i = 1 n ∑ j = 1 , j ≠ i n x i x j ) − ( n E x ) 2 = n ( E x ) 2 + n D x i + n ( n − 1 ) ( E x ) 2 − n 2 ( E x ) 2 = n D x i \begin{aligned} D(y) & =E(y^2) - E^2(y) \\ & = E(x_1+x_2+\cdots+x_n)^2-(nEx)^2 \\ & = E(x_1^2+x_2^2+ \cdots+x_n^2+2\sum_{i=1}^n\sum_{j=1,j\ne i}^n x_ix_j)-(nEx)^2 \\ & = n(Ex)^2+nDx_i + n(n-1)(Ex)^2-n^2(Ex)^2 \\ & = nDx_i \end{aligned} D(y)=E(y2)E2(y)=E(x1+x2++xn)2(nEx)2=E(x12+x22++xn2+2i=1nj=1,j=inxixj)(nEx)2=n(Ex)2+nDxi+n(n1)(Ex)2n2(Ex)2=nDxi

如果稍微扩展一下, y = c 1 x 1 + c 2 x 2 + ⋯ + c n x n y=c_1x_1+c_2x_2+\cdots+c_nx_n y=c1x1+c2x2++cnxn,那么期望为 E ( y ) = ∑ c i E ( x i ) E(y) = \sum c_iE(x_i) E(y)=ciE(xi),求方差的方法与上面类似:
D ( y ) = E ( y 2 ) − E ( y ) 2 = E ( c 1 x 1 + c 2 x 2 + ⋯ + x n ) 2 − E 2 ( c 1 x 1 + c 2 x 2 + ⋯ + x n ) = E ( c 1 2 x 1 2 + c 2 2 x 2 2 + ⋯ + c n 2 x n 2 + 2 ∑ i = 1 n ∑ j = 1 , j ≠ i n x i x j ) − E 2 ( c 1 x 1 + c 2 x 2 + ⋯ + x n ) = ∑ i = 1 n c i 2 ( E x i ) 2 + ∑ i = 1 n c i 2 D x i + 2 ∑ i = 1 n ∑ j = 1 , j ≠ i n x i x j ) − E 2 ( c 1 x 1 + c 2 x 2 + ⋯ + x n ) = ∑ i = 1 n c i 2 D x i \begin{aligned} D(y) & =E(y^2) - E(y)^2 \\ & = E(c_1x_1+c_2x_2+\cdots+x_n)^2-E^2(c_1x_1+c_2x_2+\cdots+x_n) \\ & = E(c_1^2x_1^2+c_2^2x_2^2+ \cdots+c_n^2x_n^2+2\sum_{i=1}^n\sum_{j=1,j\ne i}^n x_ix_j)-E^2(c_1x_1+c_2x_2+\cdots+x_n)\\ & = \sum_{i=1}^n c_i^2 (Ex_i)^2 + \sum_{i=1}^nc_i^2 Dx_i + 2\sum_{i=1}^n\sum_{j=1,j\ne i}^n x_ix_j) -E^2(c_1x_1+c_2x_2+\cdots+x_n)\\ &=\sum_{i=1}^nc_i^2Dx_i \end{aligned} D(y)=E(y2)E(y)2=E(c1x1+c2x2++xn)2E2(c1x1+c2x2++xn)=E(c12x12+c22x22++cn2xn2+2i=1nj=1,j=inxixj)E2(c1x1+c2x2++xn)=i=1nci2(Exi)2+i=1nci2Dxi+2i=1nj=1,j=inxixj)E2(c1x1+c2x2++xn)=i=1nci2Dxi

### R语言中独立同分布检验的方法 在R语言中,虽然没有直接针对“独立同分布”这一概念的单一测试方法,但可以通过组合多种统计技术来验证数据集是否满足独立性和同分布性的条件。以下是具体实现方式: #### 1. **独立性检验** 为了检测两个变量之间是否存在依赖关系,可以采用卡方检验(Chi-Square Test)。此方法适用于离散型分类变量的数据。 示例代码如下: ```r # 构建一个简单的列联表 M <- as.table(rbind(c(56, 1932), c(23, 4567))) dimnames(M) <- list(cancer = c("Y", "N"), smoke = c("Y", "N")) # 执行卡方检验 result <- chisq.test(M, correct = FALSE) print(result) ``` 上述代码会返回卡方统计量、自由度以及p值[^3]。如果p值小于设定的显著水平(通常为0.05),则认为这两个变量不独立。 #### 2. **同分布性检验** 对于连续型数值变量,“Kolmogorov–Smirnov test”(KS检验)可用于比较两组或多组样本是否来自相同的概率分布。 下面是一个使用`ks.test()`函数的例子: ```r set.seed(123) # 设置随机种子以便结果可重复 sample1 <- rnorm(100, mean = 0, sd = 1) # 正态分布 N(0,1) sample2 <- rnorm(100, mean = 0, sd = 1) # 另一组正态分布 N(0,1) # 进行 KS 检验 ks_result <- ks.test(sample1, sample2) print(ks_result) ``` 当两组样本确实来源于同一分布时,预期得到较大的 p 值;反之,则表明它们可能属于不同的分布[^4]。 #### 3. **综合评估:时间序列场景下的 IID 测试** 如果是处理时间序列数据并希望确认其是否符合IID特性,除了单独考察各时刻观测值间的自相关外,还可以利用Ljung-Box Q-test等手段进一步探索滞后效应的存在与否。 例如: ```r library(TSA) ts_data <- arima.sim(model=list(order=c(1,0,0)), n=100) # 模拟AR(1)过程作为例子 lb_test <- Box.test(ts_data, type="Ljung-Box") cat("LB Test Statistic:", lb_test$statistic,"\n") cat("P Value:", lb_test$p.value,"\n") if(lb_test$p.value < 0.05){ cat("Reject Null Hypothesis - Data is not white noise.\n") } else { cat("Fail to Reject Null Hypothesis - Possible White Noise/IID Process.\n") } ``` 以上程序片段展示了如何运用TSA库里的功能完成此类任务[^1]。 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值