非独立随机变量的概率上界估计

目前的概率论或者随机变量书籍过分强调对独立随机变量的大数定律,中心极限定理,遗憾上界的估计。而对于非独立随机变量的研究很少,在《概率论的极限定理》中曾给出过一般随机变量求和的渐进分布簇的具体形式,然而形式却太过复杂。下面将以切比雪夫不等式为基本出发点,研究非独立情况下的随机变量均值的一个误差上界,为后面研究提供基础。

(非独立随机变量概率误差上界) 若对于随机变量 { r t + 1 , r t + 1 , . . . , r t + n } \{r_{t+1},r_{t+1},...,r_{t+n}\} {rt+1,rt+1,...,rt+n},存在 D max ⁡ ≥ 0 D_{\max}\geq0 Dmax0使得对于任意 k k k,有 D [ r t + k ∣ H k ] ≤ D max ⁡ \mathbb{D}[r_{t+k}|H_k]\leq D_{\max} D[rt+kHk]Dmax,则有下面的式子成立,对于给定 ε > 0 \varepsilon >0 ε>0
P [ ∣ 1 n ∑ k = 1 n r t + k − 1 n ∑ k = 1 n E t + k [ r t + k ∣ H k ] ∣ > ε ] ≤ D [ ∑ k = 1 n r t + k ∣ H n ] n 2 ε 2 = ∑ k = 1 n D [ r t + k ∣ H n ] + ∑ i = 1 n ∑ j ≠ i n [ E [ r t + i r t + j ∣ H n ] − E [ r t + i ∣ H n ] E [ r t + j ∣ H n ] n 2 ε 2 = ∑ k = 1 n D [ r t + k ∣ H n ] + ∑ i = 1 n ∑ j ≠ i n ρ i j D [ r t + i ∣ H n ] D [ r t + j ∣ H n ] n 2 ε 2 = D max ⁡ n + ∑ i = 1 n ∑ j ≠ i ρ i j n 2 ε 2 \mathbb{P}[|\frac{1}{n}\sum_{k=1}^nr_{t+k}-\frac{1}{n}\sum_{k=1}^n\mathbb{E}_{t+k}[r_{t+k}|H_k]|>\varepsilon]\leq \frac{\mathbb{D}[\sum_{k=1}^nr_{t+k}|H_n]}{n^2\varepsilon^2}\\ =\frac{\sum_{k=1}^n\mathbb{D}[r_{t+k}|H_n]+\sum_{i=1}^n\sum_{j\ne i}^n[\mathbb{E}[r_{t+i}r_{t+j}|H_n]-\mathbb{E}[r_{t+i}|H_n]\mathbb{E}[r_{t+j}|H_n]}{n^2\varepsilon^2}\\ = \frac{\sum_{k=1}^n\mathbb{D}[r_{t+k}|H_n]+\sum_{i=1}^n\sum_{j\ne i}^n\rho_{ij}\sqrt{\mathbb{D}[r_{t+i}|H_n]}\sqrt{\mathbb{D}[r_{t+j}|H_n]}}{n^2\varepsilon^2}\\=D_{\max}\frac{n+\sum_{i=1}^n\sum_{j\ne i}\rho_{ij}}{n^2\varepsilon^2} P[n1k=1nrt+kn1k=1nEt+k[rt+kHk]>ε]n2ε2D[k=1nrt+kHn]=n2ε2k=1nD[rt+kHn]+i=1nj=in[E[rt+irt+jHn]E[rt+iHn]E[rt+jHn]=n2ε2k=1nD[rt+kHn]+i=1nj=inρijD[rt+iHn] D[rt+jHn] =Dmaxn2ε2n+i=1nj=iρij
其中 ρ i j ∈ [ − 1 , 1 ] \rho_{ij}\in[-1,1] ρij[1,1],表示随机变量 r t + i r_{t+i} rt+i和随机变量 r t + j r_{t+j} rt+j相关系数,描述了其相关程度。

(推论1) 可以看出的是,若相关性最强的情况,对于任意两个随机变量 r t + i r_{t+i} rt+i r t + j r_{t+j} rt+j间都是强相关的,即对于任意 r t + i , r t + j r_{t+i},r_{t+j} rt+i,rt+j ρ i j = 1 \rho_{ij}=1 ρij=1,则有对于给定的 ε > 0 \varepsilon >0 ε>0
P [ ∣ 1 n ∑ k = 1 n r t + k − 1 n ∑ k = 1 n E t + k [ r t + k ∣ H k ] ∣ > ε ] ≤ D max ⁡ ε 2 \mathbb{P}[|\frac{1}{n}\sum_{k=1}^nr_{t+k}-\frac{1}{n}\sum_{k=1}^n\mathbb{E}_{t+k}[r_{t+k}|H_k]|>\varepsilon]\leq \frac{D_{\max}}{\varepsilon^2} P[n1k=1nrt+kn1k=1nEt+k[rt+kHk]>ε]ε2Dmax
(推论2) 非独立随机变量若想要使得 大数定律成立,即 1 n ∑ k = 1 n r t + k \frac{1}{n}\sum_{k=1}^nr_{t+k} n1k=1nrt+k依概率收敛到 1 n ∑ k = 1 n E t + k [ r t + k ] \frac{1}{n}\sum_{k=1}^n\mathbb{E}_{t+k}[r_{t+k}] n1k=1nEt+k[rt+k],则需要使得 ∑ j ≠ i ρ i j < o ( n ) \sum_{j\ne i}\rho_{ij}<o(n) j=iρij<o(n)或者 ∑ i = 1 n ∑ j ≠ i ρ i j < o ( n 2 ) \sum_{i=1}^n\sum_{j\ne i}\rho_{ij}<o(n^2) i=1nj=iρij<o(n2)

即对于任意一个随机变量 r t + i r_{t+i} rt+i而言,其同其他随机变量 r t + j r_{t+j} rt+j的相关程度之和应该大于 n n n的线性增加。例如:随着 n n n的增加, r t + i r_{t+i} rt+i永远只有和其有限个 m m m r t + i − 1 , r t + i − 2 , . . . r t + i − m r_{t+i-1},r_{t+i-2},...r_{t+i-m} rt+i1,rt+i2,...rt+im相关,则此时大数定律依然成立。
(推论3) 若对于任意 ρ i j , i ≠ j \rho_{ij},i\ne j ρij,i=j ∣ ρ i j ∣ < ρ ≤ 1 |\rho_{ij}|<\rho\leq1 ρij<ρ1,则可以得到: P [ ∣ 1 n ∑ k = 1 n r t + k − 1 n ∑ k = 1 n E t + k [ r t + k ∣ H k ] ∣ > ε ] ≤ D max ⁡ ∣ ρ ∣ ε 2 + D max ⁡ ( 1 − ∣ ρ ∣ ) n ε 2 \mathbb{P}[|\frac{1}{n}\sum_{k=1}^nr_{t+k}-\frac{1}{n}\sum_{k=1}^n\mathbb{E}_{t+k}[r_{t+k}|H_k]|>\varepsilon]\leq \frac{D_{\max}|\rho|}{\varepsilon^2}+\frac{D_{\max}(1-|\rho|)}{n\varepsilon^2} P[n1k=1nrt+kn1k=1nEt+k[rt+kHk]>ε]ε2Dmaxρ+nε2Dmax(1ρ)
进一步可以由极限的保号性可以得到: lim ⁡ n → ∞ P [ ∣ 1 n ∑ k = 1 n r t + k − 1 n ∑ k = 1 n E t + k [ r t + k ∣ H k ] ∣ > ε ] ≤ D max ⁡ ∣ ρ ∣ ε 2 \lim_{n\rightarrow \infty} \mathbb{P}[|\frac{1}{n}\sum_{k=1}^nr_{t+k}-\frac{1}{n}\sum_{k=1}^n\mathbb{E}_{t+k}[r_{t+k}|H_k]|>\varepsilon]\leq\frac{D_{\max}|\rho|}{\varepsilon^2} nlimP[n1k=1nrt+kn1k=1nEt+k[rt+kHk]>ε]ε2Dmaxρ
Proof:设 a n = P [ ∣ 1 n ∑ k = 1 n r t + k − 1 n ∑ k = 1 n E t + k [ r t + k ∣ H k ] ∣ a_n= \mathbb{P}[|\frac{1}{n}\sum_{k=1}^nr_{t+k}-\frac{1}{n}\sum_{k=1}^n\mathbb{E}_{t+k}[r_{t+k}|H_k]| an=P[n1k=1nrt+kn1k=1nEt+k[rt+kHk],设 lim ⁡ n → ∞ a n = c 1 \lim_{n\rightarrow \infty} a_n = c_1 limnan=c1 b n = D max ⁡ ∣ ρ ∣ ε 2 + D max ⁡ ( 1 − ∣ ρ ∣ ) n ε 2 b_n=\frac{D_{\max}|\rho|}{\varepsilon^2}+\frac{D_{\max}(1-|\rho|)}{n\varepsilon^2} bn=ε2Dmaxρ+nε2Dmax(1ρ),令 c 2 = D max ⁡ ∣ ρ ∣ ε 2 c_2=\frac{D_{\max}|\rho|}{\varepsilon^2} c2=ε2Dmaxρ,则: lim ⁡ n → ∞ b n = c 2 \lim_{n\rightarrow \infty} b_n = c_2 limnbn=c2,由假设可知 a n ≤ b n a_n\leq b_n anbn恒成立。待证明 c 1 ≤ c 2 c_1\leq c_2 c1c2,下面采用反证法证明:
不妨设 c 1 > c 2 c_1 > c_2 c1>c2,则有:
lim ⁡ n → ∞ ( a n − b n ) = c 1 − c 2 > 0 \lim_{n\rightarrow \infty}(a_n-b_n)=c_1-c_2>0 nlim(anbn)=c1c2>0由极限的保号性: ∃ N \exists N N,当 n > N n>N n>N时有 a n − b n > 0 a_n-b_n>0 anbn>0,即 a n > b n a_n>b_n an>bn,然而这与条件 a n ≤ b n a_n\leq b_n anbn恒成立矛盾,因此得证 c 1 ≤ c 2 c_1\leq c_2 c1c2

(问题) 所以目前一个重要的问题是: ρ i j \rho_{ij} ρij如何进行估计?

阅读终点,创作起航,您可以撰写心得或摘录文章要点写篇博文。去创作
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 很高兴为您解答问题!针对您的问题,我们可以使用Monte Carlo方法建立置信区间。通过Monte Carlo方法,我们可以利用随机数模拟计算,最终得到概率分布函数,并利用其构造置信区间。 具体来说,我们可以以计算π的数值随机算法为例,使用Monte Carlo方法建立置信区间。假设我们要计算π,我们可以在一个正方形区域内随机生成大量的点,然后计算在一个内切圆中的点的数量占总点数的比例,这个比例就可以近似地表示π/4,进而估算π的值。 对于置信区间的计算,我们可以首先估算出这个比例的方差,并利用Chebyshev不等式(切尔诺夫界)来估计置信区间。具体来说,定义随机变量X为在内切圆中的点的数量,其期望值为E[X] = π/4,方差为Var[X] = E[X^2] - E[X]^2,其中X^2表示在内切圆中的点的数量的平方。通过Monte Carlo方法模拟计算,我们可以得到X和X^2的样本值,进而估算出期望和方差。 然后,利用Chebyshev不等式可以得到: Pr[ |X - E[X]| >= ε ] <= Var[X]/ε^2 其中,|X - E[X]|表示误差,ε表示置信区间的半径,Pr[ ]表示概率。由于Var[X]已知,我们可以根据置信水平和置信区间长度计算所需的随机实验次数。 例如,如果我们希望以95%的置信水平估计π的值,在误差不超过0.01的情况下,好像我们需要进行的随机实验次数为: N = Var[X]/ε^2Pr[ |X - E[X]| >= ε ] = Var[X]/(ε^2Pr[ x属于[a-z, a z] ]) ### 回答2: 数值随机算法通过进行多次随机实验来估计数值a,但由于随机性的存在,每次实验得到的结果可能存在一定的误差,因此需要建立置信区间来表示对数值a的精度。 根据切尔诺夫界,如果一个随机变量X的标准差为σ,那么在任意常数k>0下有Pr[|X-E[X]| >= kσ] <= 1/k^2。其中E[X]表示X的期望。 以计算π为例,我们可以使用蒙特卡洛方法来进行数值随机算法。假设我们需要计算π的值,我们可以在单位正方形内随机生成大量点,计算落在单位圆内的点的比例p。由于单位圆的面积为π/4,单位正方形的面积为1,根据几何知识,p可以用来估计π的值。 利用切尔诺夫界,我们可以建立一个置信区间来表示对π的估计精度。假设我们希望以置信水平1-α来估计π,那么置信区间可以表示为Pr[|p-π/4| <= σ] > 1-α。根据切尔诺夫界,我们可以选择k为1/√α,即Pr[|p-π/4| >= 1/√ασ] <= α。 在给定置信水平和置信区间的情况下,我们可以根据切尔诺夫界的不等式,计算出所需的随机实验次数。根据切尔诺夫界的不等式 α = 1/k^2,我们可以得到 k = √(1/α),进而得到所需的随机实验次数 n = (kσ/Δ)^2,其中Δ为置信区间的半宽度。 同理,我们可以利用切尔诺夫界建立定积分的数值随机算法的置信区间,并计算所需的随机实验次数。 ### 回答3: 数值随机算法是通过生成随机数来进行数值计算的方法。在数值计算过程中,我们往往需要估计计算结果的精度,即估计结果与真实值之间的偏差范围。置信区间是一种常用的估计偏差范围的方法。 对于数值随机算法计算数值a的精度,我们可以通过切尔诺夫界来建立置信区间。切尔诺夫界是一个概率论中的定理,它给出了随机变量偏离其均值的概率上界。 假设我们要计算π的值,并且希望以95%的置信水平估计其精度。我们可以利用蒙特卡洛方法来计算π的近似值。蒙特卡洛方法是一种基于随机抽样的数值计算方法。具体地,我们可以在单位正方形内生成大量随机点,并统计落入单位圆内的点的比例,来估计π的值。 根据切尔诺夫界的原理,我们可以得到一个关于π的置信区间。假设我们进行N次随机实验,其中x次实验的结果落在[a-z, az]的范围内。根据切尔诺夫界,我们有: Pr[ x/N属于[a-z, az/N] ]> 1-r 换句话说,我们可以通过不断增加随机实验的次数N,来缩小置信区间的范围([a-z, az/N])。当N趋于无穷大时,置信区间将收敛到[a-z, a]。 因此,我们可以根据置信水平和置信区间的要求来估计所需的随机实验次数。例如,如果我们希望以95%的置信水平估计π的精度在0.01以内,我们可以从切尔诺夫界推导出所需的实验次数,并根据这个次数进行蒙特卡洛模拟。随着实验次数的增加,我们可以得到越来越准确的π的近似值,并估计出其精度在所期望的范围内。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赛亚茂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值