随机过程(3)——更新过程

1.前言

如约来到了第三篇。
感觉最近很浮躁,动不动就打好久农药,心里期盼着快点开学,但是听说开学之后要蹲监狱,emmmmm,我还是宅在家吧。待到娱乐场所都开放之时,应该就没这么无聊了。
老师在上这一章的时候,说这不是重点,然而还是讲了洋洋洒洒4节课吧,而且基本上后面的课都讲得我云里雾里,希望自己整理一遍之后能知道更新过程到底在说啥。

2.更新过程简介

在泊松过程中,我曾经提到过泊松过程的第三定义:
对于一串服从均值为 1 / λ 1/\lambda 1/λ的指数分布的独立同分布的序列 { X n , n ≥ 1 } \{X_n,n\geq1\} {Xn,n1},事件n发生在时间
S n = Σ i = 1 n X i S_n=\Sigma_{i=1}^{n}X_i Sn=Σi=1nXi
处。这个计数过程也就是服从参数为 λ \lambda λ的泊松过程。
也就是说,间隔时服从独立同分布的泊松分布的计数过程,是泊松过程。现在考虑更一般化的间隔时,间隔时服从分布 F F F,且为了让这个分布有意义, F ( 0 ) < 1 F(0)<1 F(0)<1。同时我们还使用 X n X_n Xn表示间隔时,用 μ \mu μ表示间隔时的期望, S n S_n Sn表示到达时,用 N ( t ) N(t) N(t)表示在时间 t t t之前发生的事件总数。也就是如下的数学公式:
到达时: S 0 = 0 , S n = Σ i = 1 n X i , n ≥ 1 S_0=0,S_n=\Sigma_{i=1}^nX_i,n\geq 1 S0=0Sn=Σi=1nXi,n1
间隔时的期望: μ = E [ X n ] = ∫ 0 ∞ x d F ( x ) \mu=E[X_n]=\int_0^\infty xdF(x) μ=E[Xn]=0xdF(x)
计数值: N ( t ) = s u p [ n : S n ≤ t ] N(t)=sup[n:S_n\leq t] N(t)=sup[n:Snt]

那么,可以看出,泊松过程只是更新过程的一种。如果使用更新过程的属性来定义泊松过程,那就是说泊松过程是间隔时服从均值为 1 / λ 1/\lambda 1/λ的指数分布的更新过程。
在更新过程中,我们将无差别地使用“事件”和“更新”两个词,也就是说,发生了一次事件和发生了一次更新,在这一章是等价的。

2.1更新过程的一些简单性质

由间隔时独立同分布可知,每个更新阶段都依概率重复,这一性质和泊松过程是一样的。

有限时间内只会发生有限次更新:
依大数定率可知, lim ⁡ n → ∞ S n / n → E ( S n / n ) = E ( S n ) / n \lim_{n\to\infty}S_n/n\to E(S_n/n)=E(S_n)/n limnSn/nE(Sn/n)=E(Sn)/n
E ( S n ) / n = E ( Σ i = 1 n X i ) / n = Σ i = 1 n E ( X i ) / n = n E ( X n ) / n = μ E(S_n)/n=E(\Sigma_{i=1}^nX_i)/n=\Sigma_{i=1}^nE(X_i)/n=nE(X_n)/n=\mu E(Sn)/n=E(Σi=1nXi)/n=Σi=1nE(Xi)/n=nE(Xn)/n=μ
所以也可以写成 lim ⁡ n → ∞ S n / μ = n \lim_{n\to\infty}S_n/\mu=n limnSn/μ=n
这里的收敛都是依概率收敛。
可以看到,有限的时间内只可能发生有限次的事件。因此, N ( t ) N(t) N(t)也是有限的,所以可以将 N ( t ) N(t) N(t)中的 s u p sup sup换为 m a x max max,即
N ( t ) = m a x [ n : S n ≤ t ] N(t)=max[n:S_n\leq t] N(t)=max[n:Snt]

3.主要符号的引入

这一章用了很多的符号,在简介中已经有不少了。这里先列出来,以达到把书读薄,避免混淆的目的。

间隔时: X n X_n Xn
间隔时服从的分布: F F F
到达时: S 0 = 0 , S n = Σ i = 1 n X i , n ≥ 1 S_0=0,S_n=\Sigma_{i=1}^nX_i,n\geq 1 S0=0Sn=Σi=1nXi,n1
到达时服从的分布: F n F_n Fn
间隔时的期望: μ = E [ X n ] = ∫ 0 ∞ x d F ( x ) \mu=E[X_n]=\int_0^\infty xdF(x) μ=E[Xn]=0xdF(x)
计数值: N ( t ) = m a x [ n : S n ≤ t ] N(t)=max[n:S_n\leq t] N(t)=max[n:Snt]
计数期望: m ( t ) = E [ N ( t ) ] m(t)=E[N(t)] m(t)=E[N(t)]

4. N ( t ) N(t) N(t)的分布

从泊松过程中,我们就知道 P [ N ( t ) = 0 ] = P [ X 1 > t ] = 1 − P [ X 1 ≤ t ] = 1 − F ( t ) P[N(t)=0]=P[X_1> t]=1-P[X_1\leq t]=1-F(t) P[N(t)=0]=P[X1>t]=1P[X1t]=1F(t)。这个公式很好理解:t时刻计数为0说明第一个事件发生的事件大于t。从这里出发,我们可以计算出 N ( t ) N(t) N(t)的分布:
N ( t ) ≥ n < = = > S n ≤ t N(t)\geq n <==>S_n\leq t N(t)n<==>Snt
P [ N ( t ) = n ] = P [ N ( t ) ≥ n ] − P [ N ( t ) ≥ n + 1 ] = P [ S n ≤ t ] − P [ S n + 1 ≤ t ] = F n ( t ) − F n + 1 ( t ) P[N(t)=n]=P[N(t)\geq n]-P[N(t)\geq n+1]=P[S_n\leq t]-P[S_{n+1}\leq t]=F_n(t)-F_{n+1}(t) P[N(t)=n]=P[N(t)n]P[N(t)n+1]=P[Snt]P[Sn+1t]=Fn(t)Fn+1(t)

m ( t ) = E [ N ( t ) ] m(t)=E[N(t)] m(t)=E[N(t)]
我们称 m ( t ) m(t) m(t)为更新函数。多数更新理论都是关注更新函数的性质。
m ( t ) m(t) m(t)可以唯一地决定一个更新过程,调换顺序也成立,证明略去。

4.1 m ( t ) m(t) m(t)的另一种表示

m ( t ) = Σ n = 1 ∞ F n ( t ) m(t)=\Sigma_{n=1}^\infty F_n(t) m(t)=Σn=1Fn(t)
证明:令 N ( t ) = Σ n = 1 ∞ I n N(t)=\Sigma_{n=1}^\infty I_n N(t)=Σn=1In,其中
I n = { 1 , 若 第 n 次 更 新 在 [ 0 , t ] 内 发 生 0 , 其 他 情 况 I_n=\begin{cases} 1 ,若第n次更新在[0,t]内发生\\ 0,其他情况 \end{cases} In={1n[0,t]0
这是一个比较老的手法了,在之前的解题中也用过。
所以有
E [ N ( t ) ] = E [ Σ n = 1 ∞ I n ] = Σ n = 1 ∞ E [ I n ] = Σ n = 1 ∞ P ( S n ≤ t ) = Σ n = 1 ∞ F n ( t ) E[N(t)]=E[\Sigma_{n=1}^\infty I_n]=\Sigma_{n=1}^\infty E[I_n]=\Sigma_{n=1}^\infty P(S_n \leq t)=\Sigma_{n=1}^\infty F_n(t) E[N(t)]=E[Σn=1In]=Σn=1E[In]=Σn=1P(Snt)=Σn=1Fn(t)
注意:期望和求合符号需要满足非负才可以互换位置。

4.2 m ( t ) m(t) m(t)是有界的

也就是 m ( t ) < ∞ , 0 < t < ∞ m(t)<\infty,0<t<\infty m(t)<,0<t<
证明:由于 P ( X n = 0 ) < 1 P(X_n=0)<1 P(Xn=0)<1,由概率的连续性可知, ∃ α > 0 , P ( X n ≥ α ) > 0 \exist\alpha>0,P(X_n\geq \alpha)>0 α>0,P(Xnα)>0现在我们定义一个截断的更新过程,其间隔时满足
X ‾ n = { 0 , i f X n < α α , i f X n ≥ α \overline{X}_n= \begin{cases} 0,ifX_n<\alpha \\ \alpha ,ifX_n\geq \alpha \end{cases} Xn={0,ifXn<αα,ifXnα
我们令 N ‾ ( t ) = s u p { X ‾ 1 + . . . + X ‾ n ≤ t } \overline{N}(t)=sup\{\overline{X}_1+...+\overline{X}_n \leq t\} N(t)=sup{X1+...+Xnt}
也就是说,如果某个更新过程的间隔时大于 α \alpha α,我们就把它截断为 α \alpha α,如果间隔时小于 α \alpha α,我们就把它截断为0。用截断后的间隔时作为与之相关的更新过程的间隔时。
这样我们可以明显看出,事件只有可能发生在 α \alpha α的整数倍处!因为间隔时只有可能是 α \alpha α或者0!在其它地方,是不可能出现更新的。那么,在每个 α \alpha α时间内,发生更新的期望是多少呢?
这个可以看作一个几何分布,也就是只要有一次原更新过程间隔时大于 α \alpha α,我们认为这个相关的更新过程产生了一次更新。而间隔时大于 α \alpha α的概率是固定的。所以这一相关过程 α \alpha α时间内计数的期望为
1 P { X n > α } \frac{1}{P\{X_n>\alpha\}} P{Xn>α}1
所以
E [ N ( t ) ] ≤ E [ N ‾ ( t ) ] ≤ t / α + 1 P { X n ≥ α } ≤ ∞ E[N(t)]\leq E[\overline{N}(t)]\leq \frac{t/\alpha+1}{P\{X_n\geq\alpha\}}\leq\infty E[N(t)]E[N(t)]P{Xnα}t/α+1
第一个等号是由于,间隔时 X ‾ n ≤ X n \overline{X}_n\leq X_n XnXn,因此相同时间内,截断后的事件计数会更多,就好像效率提高了,相同时间做的事情就多了。因此 N ( t ) ≤ N ‾ ( t ) N(t)\leq \overline{N}(t) N(t)N(t)。也就证明了更新函数,即计数值的期望是有界的。

5 一些极限理论

复习到这里,我还是对更新理论没有什么整体的把握。这一节的名字更是差,简直就像是凑数的嘛!

5.1 N ( t ) N(t) N(t)趋向无穷的速率

我们知道, t → ∞ , N ( t ) → ∞ t\to\infty, N(t)\to\infty t,N(t)。现在我们关心 N ( t ) N(t) N(t)以什么样的方式趋向无穷,是线性的,指数的,还是二次的?
N ( t ) / t = 1 / μ , t → ∞ N(t)/t=1/\mu,t\to\infty N(t)/t=1/μ,t
证明:
S N ( t ) / N ( t ) ≤ t / N ( t ) ≤ S N ( t ) + 1 / N ( t ) S_{N(t)}/N(t) \leq t/N(t)\leq S_{N(t)+1}/N(t) SN(t)/N(t)t/N(t)SN(t)+1/N(t)

S N ( t ) / N ( t ) → μ , t → ∞ S_{N(t)}/N(t)\to \mu, t\to\infty SN(t)/N(t)μ,t
S N ( t ) + 1 / N ( t ) = S N ( t ) + 1 N ( t ) + 1 × N ( t ) + 1 N ( t ) S_{N(t)+1}/N(t)=\frac{S_{N(t)+1}}{N(t)+1}\times \frac{N(t)+1}{N(t)} SN(t)+1/N(t)=N(t)+1SN(t)+1×N(t)N(t)+1
N ( t ) + 1 N ( t ) → 1 , t → ∞ \frac{N(t)+1}{N(t)}\to1,t\to\infty N(t)N(t)+11,t
因此
S N ( t ) + 1 / N ( t ) → μ S_{N(t)+1}/N(t)\to \mu SN(t)+1/N(t)μ
因此根据夹逼定理,命题得证。

Example3.3A 一个罐子有有无限枚硬币,但是每一枚硬币都有自己的正面朝上的概率。这个概率服从(0,1)之间的均匀分布。假如我们在任意时刻,都有权选择继续投当前的硬币或拿一枚新的硬币。如果不停地抛掷硬币,而且我们的目标是为了最大化的正面朝上的比率,我们应该怎么怎么做?

这个题目有点意思。命运无常,但是我们可以自己选择继续当前的路或者选择一条新路。从这道题的答案可以看出,人的主观能动性是可以排除命运干扰,走出自己的阳关大道的!!!
好了,鸡汤喝完了,我们解题,解完题还有一口毒鸡汤。
我先给出答案中的策略:如果翻到正面,那就继续使用这枚硬币;如果出现反面,我们就换新的。
可以看到,采用这种策略,我们就可以定义一个更新过程:以拿新硬币为一个更新过程的开始,抛到反面为更新过程的结尾。因此每枚硬币的抛掷过程,都是完全重复的。我们定义某一枚硬币正面朝上的概率为p,在前n次抛掷中,出现了N(n)次反面。那么我们的正面朝上比率为
P h = 1 − l i m n → ∞ N ( n ) / n P_h=1-lim_{n\to\infty}N(n)/n Ph=1limnN(n)/n
从刚刚的定理可以知道
l i m n → ∞ N ( n ) / n = 1 / E ( 每 次 更 新 的 时 间 间 隔 ) lim_{n\to\infty}N(n)/n=1/E(每次更新的时间间隔) limnN(n)/n=1/E()
而我们的策略,对于每一枚硬币来说,投掷硬币的次数是服从几何分布的。因此
E ( 每 次 更 新 的 时 间 间 隔 ) = E ( 抛 出 反 面 之 前 抛 出 的 正 面 次 数 + 1 ) = E ( 1 / ( 1 − p ) ) = ∞ E(每次更新的时间间隔)=E(抛出反面之前抛出的正面次数+1)=E(1/(1-p))=\infty E()=E(+1)=E(1/(1p))=
最后的无穷是由对概率进行积分得出的期望。
因此
P h = 1 − l i m n → ∞ N ( n ) / n = 1 − 1 / ∞ = 1 P_h=1-lim_{n\to\infty}N(n)/n=1-1/\infty=1 Ph=1limnN(n)/n=11/=1
也就是我们依概率稳赢。
当然啦,(回到刚刚的鸡汤)人生不是无限的,无法尝试每一种可能,所以我们也没法一定能遇到贼tm好的机会,牢牢把握住,获得赢家人生;我们也没法每次都这么理性的采取这种策略,人还是贪心的,或者舍不得自己的付出;而且命运给的机会,好坏也不全是均匀分布的,一般来说高斯分布比较符合吧!所以这道题可以是甜鸡汤,也能是一碗毒鸡汤。

5.2 Wald方程

5.2.1 停止时的概念

我们首先引入停止时的概念:对于一个整数变量N,如果它只和序列 { X 1 , . . . , X n , X n + 1 , . . . } \{X_1,...,X_n,X_{n+1},...\} {X1,...,Xn,Xn+1,...}中的 { X 1 , . . . X n } \{X_1,...X_n\} {X1,...Xn}有关,而且独立于 { X n + 1 , . . . } \{X_{n+1},...\} {Xn+1,...},那么我们称 { N = n } \{N=n\} {N=n}是一个停止时。
再直观一点解释,就是说,只要观察前N部分就能判断停止时的发生了。再举个例子说,就是比方说我们打游戏的时候,说:
赢 一 把 就 不 玩 了 ! 赢一把就不玩了!
如果观测到第n把的时候,赢了,那我们就停止游戏,理想情况下我们不会再打第n+1把了,所以可以说n是一个停止时。虽然一般来说还会忍不住接着往下打,理由也很多,赢得太简单啊,没打C位啊,队友太强啊。
还可以比方说,我们立一个flag:
今 天 11 点 就 睡 ! 今天11点就睡! 11
后面的就不说了,大家都懂

5.2.2 Wald方程

X n X_n Xn表示独立同分布的,期望有限的变量,且 N N N为这个序列的停止时。那么我们有:
E [ Σ 1 N X n ] = E [ N ] E [ X ] E[\Sigma_1^NX_n]=E[N]E[X] E[Σ1NXn]=E[N]E[X]
证明:令
I n = { 1 , N ≥ n 0 , N < n = = > Σ 1 N X n = Σ 1 ∞ X n I n I_n=\begin{cases} 1 ,N\geq n\\ 0,N<n \end{cases} ==>\Sigma_1^N X_n=\Sigma_1^\infty X_nI_n In={1Nn0N<n==>Σ1NXn=Σ1XnIn
所以
E [ Σ 1 N X n ] = Σ 1 ∞ E [ X n I n ] E[\Sigma_1^NX_n]=\Sigma_1^\infty E[X_nI_n] E[Σ1NXn]=Σ1E[XnIn]
由于 I n I_n In只决定于 X i X_i Xi的前 n − 1 n-1 n1项。因为如果 I n = 0 I_n=0 In=0,说明停止时至少在 n − 1 n-1 n1处已经发生了! n n n是停止时之后的第一项!这点很重要,这说明了, I n I_n In X n X_n Xn是相互独立的,期望可以拆开。
E [ Σ 1 N X n ] = Σ 1 ∞ E [ X n ] E [ I n ] = E [ X ] Σ 1 ∞ E [ I n ] = E [ X ] E [ Σ 1 ∞ I n ] = E [ N ] E [ X ] E[\Sigma_1^NX_n]=\Sigma_1^\infty E[X_n]E[I_n]= E[X]\Sigma_1^\infty E[I_n]=E[X] E[\Sigma_1^\infty I_n]=E[N]E[X] E[Σ1NXn]=Σ1E[Xn]E[In]=E[X]Σ1E[In]=E[X]E[Σ1In]=E[N]E[X]
证毕。

Example3.3如果我们抛掷一枚均匀的硬币,正面得分1,反面得分0,令N表示我们第一次累计得分为10的抛掷次数,请问N的期望是多少?如果正面得分1,反面得分-1呢?

这道题很明显,N是一个停止时。所以直接用上面的公式,先看反面得分为0的情况:
10 = E [ Σ 1 N X n ] = E [ N ] E [ X ] = 0.5 E ( N ) = > E ( N ) = 20 10=E[\Sigma_1^NX_n]=E[N]E[X]=0.5E(N)=>E(N)=20 10=E[Σ1NXn]=E[N]E[X]=0.5E(N)=>E(N)=20
再看反面得分为-1的情况:
10 = E [ Σ 1 N X n ] = E [ N ] E [ X ] = 0 E ( N ) = > E ( N ) = ∞ 10=E[\Sigma_1^NX_n]=E[N]E[X]=0E(N)=>E(N)=\infty 10=E[Σ1NXn]=E[N]E[X]=0E(N)=>E(N)=
竟然出来了个无穷?我们先放着无穷的不管,有穷的结果还是令人满意的,求解过程挺简洁。

5.2.3 更新过程中的停止时

假如我们在时间t后发生第一次更新时停止。那么 N ( t ) + 1 N(t)+1 N(t)+1就是一个停止时。原因:
N ( t ) + 1 = n < = = > N ( t ) = n − 1 < = = > X 1 + . . . + X n − 1 ≤ t 而 且 X 1 + . . . + X n > t N(t)+1=n<==>N(t)=n-1<==>X_1+...+X_{n-1}\leq t而且X_1+...+X_{n}>t N(t)+1=n<==>N(t)=n1<==>X1+...+Xn1tX1+...+Xn>t
只有在t之后第一件事发生,才能断定是停止时。为什么不是t之前的最后一件事呢?因为在t过完之前,我们不可能知道这是最后一件事啊!就好像我们在人生起起落落落落落落落落时,总想着,
这 回 倒 霉 之 后 肯 定 要 转 运 了 ! 这回倒霉之后肯定要转运了!
但是不到真的某一次碰到好运的时候,你能说自己真的转运了吗!即使好运一次之后,又是不断地落落落,那也算是一个倒霉过程停止了(只不过另一个倒霉过程又开始了)。
回到正题。这说明:
E [ S N ( t ) + 1 ] = E [ X 1 + . . . + X N ( t ) + 1 ] = E [ X ] E [ N ( t ) ] = μ [ m ( t ) + 1 ] E[S_{N(t)+1}]=E[X_1+...+X_{N(t)+1}]=E[X]E[N(t)]=\mu [m(t)+1] E[SN(t)+1]=E[X1+...+XN(t)+1]=E[X]E[N(t)]=μ[m(t)+1]

5.2.4 初等更新定理

看这题目就觉得很NB,这一章叫做更新过程,那更新定理岂不是其中最重要的东西了?
说实话,上课老师提到更新定理的时候,我蒙圈了好久,不知道更新定理是什么定理。结果就是下面这个公式??
m ( t ) / t → 1 / μ , t → ∞ m(t)/t\to 1/\mu,t\to\infty m(t)/t1/μ,t
定理的证明过程我不想抄了,主要就是利用了上一节的 E [ S N ( t ) + 1 ] = μ [ m ( t ) + 1 ] E[S_{N(t)+1}]=\mu [m(t)+1] E[SN(t)+1]=μ[m(t)+1]这个结论,并且利用 S N ( t ) + 1 ≥ t S_{N(t)+1}\geq t SN(t)+1t,两边取期望,可以得到我们想证明的极限的下界。然后再利用它的相关过程:截断过程 S ‾ N ( t ) + 1 ≤ t + M \overline{S}_{N(t)+1}\leq t+M SN(t)+1t+M,取期望,得到极限的上界。
我们看着这个定理。我再把这两个符号解释一下:
μ = E [ X n ] \mu=E[X_n] μ=E[Xn]
m ( t ) = E [ N ( t ) ] m(t)=E[N(t)] m(t)=E[N(t)]
把它们带入,得到
E [ N ( t ) ] / t → 1 / μ , t → ∞ E[N(t)]/t\to 1/\mu,t\to\infty E[N(t)]/t1/μ,t
我们再回到上面的一个极限的结论:
N ( t ) / t → 1 / μ , t → ∞ N(t)/t\to 1/\mu,t\to\infty N(t)/t1/μ,t
欸,证明了这么久的定理,怎么和这个似曾相识?拿之前的结论两边直接取极限不完就了吗!
这是不对的。我们可以把这个问题抽象为逐点收敛和积分收敛的问题。
一个函数收敛到0,那它的积分也能收敛到0吗?考虑一个函数,其中U为(0,1)间均匀分布
Y n = { 0 , U > 1 / n n , U ≤ 1 / n Y_n=\begin{cases} 0,U>1/n \\ n,U\leq 1/n \end{cases} Yn={0,U>1/nn,U1/n
它是收敛到0的。但是它的期望
E ( Y n ) = n P [ U ≤ 1 / n ] = 1 E(Y_n)=nP[U\leq 1/n]=1 E(Yn)=nP[U1/n]=1
说明函数收敛到0和期望收敛到0并不能等价。

5.2.5 N ( t ) N(t) N(t)的中心极限分布

t → ∞ t\to\infty t时, N ( t ) → ( t / μ , t σ 2 / μ 3 ) N(t)\to (t/\mu,t\sigma^2/\mu^3) N(t)(t/μ,tσ2/μ3)的正态分布。其中 μ , σ 2 \mu,\sigma^2 μ,σ2分别表示间隔时的均值和方差。证明略去(懒)

6 关键更新定理及其应用

首先解释“格”的概念:
如果
Σ n = 0 ∞ P [ X = n d ] = 1 \Sigma_{n=0}^\infty P[X=nd]=1 Σn=0P[X=nd]=1
也就是,更新只可能发生在d的整数倍的点上,那么我们称这种更新过程是带格的。反之,则说它是不带格的。

sorry,这一节后面的我看吐了,竟然有卷积,暂且跳过
20200521:昨天上了复习课之后,对关键更新定理有了更好的理解,因此删去这句不成熟的话。

6.1 Blackwell定理

i)如果F不是带格的,那么
t → ∞ , m ( t + a ) − m ( t ) → a / μ t\to\infty,m(t+a)-m(t)\to a/\mu t,m(t+a)m(t)a/μ
ii)如果F周期为d,那么
n → ∞ , E [ n d 处 发 生 更 新 的 次 数 ] → d / μ n\to\infty,E[nd处发生更新的次数]\to d/\mu n,E[nd]d/μ

6.2 关键更新定理

如果F是非周期的, h ( t ) h(t) h(t)是直接黎曼可积的,那么有:
lim ⁡ t → ∞ = ∫ 0 t h ( t − x ) d m ( x ) = 1 / μ ∫ 0 t h ( x ) d x \lim_{t\to\infty}=\int _0^th(t-x)dm(x)=1/\mu\int _0^th(x)dx tlim=0th(tx)dm(x)=1/μ0th(x)dx
其中 m ( x ) , μ m(x),\mu m(x),μ的定义是本章的惯用符号,而 h ( x ) h(x) h(x)只需要满足直接黎曼可积的条件下,任意都可。
我们从Blackwell定理出发,可以推导出关键更新定理:
lim ⁡ t → ∞ m ( t + a ) − m ( t ) = a / μ = > lim ⁡ t → ∞ lim ⁡ a → 0 [ m ( t + a ) − m ( t ) ] / a = lim ⁡ t → ∞ d m ( t ) / d t = 1 / μ \lim_{t\to\infty}m(t+a)-m(t)= a/\mu=>\lim_{t\to\infty}\lim_{a\to0}[m(t+a)-m(t)]/a=\lim_{t\to\infty}dm(t)/dt= 1/\mu tlimm(t+a)m(t)=a/μ=>tlima0lim[m(t+a)m(t)]/a=tlimdm(t)/dt=1/μ
也就是说,关键更新定理说明了一件事,那就是 t → ∞ , m ′ ( t ) = 1 / μ t\to\infty,m'(t)=1/\mu t,m(t)=1/μ

6.3 关键更新定理的应用

上面的结论要在下面的交替更新过程的推导中用到。
在这之前,给出一个概率分布。这个概率解释为,在当前时间之前发生的最后一件事的到达时的分布。
P [ S N ( t ) ≤ s ] = Σ n = 0 ∞ P [ S n ≤ s , S n + 1 > s ] = F ‾ ( t ) + Σ n = 1 ∞ P [ S n ≤ s , S n + 1 > s ] = F ‾ ( t ) + Σ n = 1 ∞ ∫ 0 s P [ S n ≤ s , S n + 1 > s ∣ S n = y ] P [ S n = y ] d y = F ‾ ( t ) + Σ n = 1 ∞ ∫ 0 s P [ S n ≤ s , S n + 1 > s ∣ S n = y ] d F n ( y ) = F ‾ ( t ) + ∫ 0 s P [ X n + 1 > s − y ] Σ n = 1 ∞ d F n ( y ) = F ‾ ( t ) + ∫ 0 s F ‾ ( s − y ) d m ( y ) \begin{aligned} P[S_{N(t)}\leq s]&=\Sigma_{n=0}^\infty P[S_n\leq s,S_{n+1}>s] \\ &= \overline F(t)+ \Sigma_{n=1}^\infty P[S_n\leq s,S_{n+1}>s] \\ &=\overline{F}(t)+ \Sigma_{n=1}^\infty\int_0^s P[S_n\leq s,S_{n+1}>s|S_n=y]P[S_n=y]dy\\ &=\overline{F}(t)+ \Sigma_{n=1}^\infty\int_0^s P[S_n\leq s,S_{n+1}>s|S_n=y]dF_n(y)\\ &=\overline{F}(t)+ \int_0^s P[X_{n+1}>s-y]\Sigma_{n=1}^\infty dF_n(y)\\ &=\overline{F}(t)+\int_0^s \overline{F}(s-y)dm(y) \\ \end{aligned} P[SN(t)s]=Σn=0P[Sns,Sn+1>s]=F(t)+Σn=1P[Sns,Sn+1>s]=F(t)+Σn=10sP[Sns,Sn+1>sSn=y]P[Sn=y]dy=F(t)+Σn=10sP[Sns,Sn+1>sSn=y]dFn(y)=F(t)+0sP[Xn+1>sy]Σn=1dFn(y)=F(t)+0sF(sy)dm(y)

7 交替更新过程

交替更新过程是关键更新定理的应用
考虑这样一种系统:它拥有两个状态,开或者关。我们默认它初始是开的状态,它开了 Z 1 Z_1 Z1时间,然后关。它关了 Y 1 Y_1 Y1时间,然后又开 Z 2 Z_2 Z2时间,然后又关,又开,……
我们先做一个假设:每个开过程的时间分布,都是独立同分布的;关也一样。但是在一个开关周期内(先开,后关),开、关的时间可以是不独立的。同时,我们用 H , G H,G H,G表示 Z n , Y n Z_n,Y_n Zn,Yn的分布, F F F表示间隔时,也就是 Z n + Y n Z_n+Y_n Zn+Yn的分布。

7.1 开、关概率的极限分布

说实话,我不知道该怎么概括这个定理。但是这个定理我觉得是这一节最重要的东西,简单又好用。
E ( Z n + Y n ) < ∞ E(Z_n+Y_n)<\infty E(Zn+Yn)<且F不是带格的,那么有
lim ⁡ t → ∞ P ( t ) = E ( Z n ) / [ E ( Z n ) + E ( Y n ) ] \lim_{t\to\infty} P(t)=E(Z_n)/[E(Z_n)+E(Y_n)] tlimP(t)=E(Zn)/[E(Zn)+E(Yn)]
其中, P ( t ) P(t) P(t)代表在t时刻,这个系统处于‘开’状态的概率。
定理很好理解,我也懒得证明了。
比方说上课40分钟,下课5分钟,无限循环。假如某天我们没有带表,请问我们走进教室,正在上课的概率是?
但是为什么t要趋向于无穷啊啊啊啊啊啊啊?!!
接下来现在的我还是证明一下这个曾经的我不太理解的定理。
首先我们将t时刻为on分为两种情况:处于第一次更新过程,已经经历过至少一次完整的更新过程:
P ( t ) = P [ o n ∣ S N ( t ) = 0 ] P [ S N ( t ) = 0 ] + ∫ 0 t P [ o n ∣ S N ( t ) = y ] d F S N ( t ) ( y ) = H ‾ ( t ) / F ‾ ( t ) × F ‾ ( t ) + ∫ 0 t H ‾ ( t − y ) / F ‾ ( t − y ) × F ‾ ( t − y ) d m ( y ) = H ‾ ( t ) + ∫ 0 t H ‾ ( t − y ) d m ( y ) \begin{aligned} P(t)&=P[on|S_{N(t)}=0]P[S_{N(t)}=0]+\int_0^tP[on|S_{N(t)}=y]dF_{S_{N(t)}}(y)\\ &=\overline{H}(t)/\overline{F}(t)\times\overline{F}(t)+\int_0^t \overline{H}(t-y)/\overline{F}(t-y)\times \overline{F}(t-y)dm(y)\\ &=\overline{H}(t)+\int_0^t \overline{H}(t-y)dm(y) \end{aligned} P(t)=P[onSN(t)=0]P[SN(t)=0]+0tP[onSN(t)=y]dFSN(t)(y)=H(t)/F(t)×F(t)+0tH(ty)/F(ty)×F(ty)dm(y)=H(t)+0tH(ty)dm(y)
第二行的后半段,是利用了 P [ S N ( t ) ≤ s ] = F ‾ ( t ) + ∫ 0 s F ‾ ( s − y ) d m ( y ) P[S_{N(t)}\leq s]=\overline{F}(t)+\int_0^s \overline{F}(s-y)dm(y) P[SN(t)s]=F(t)+0sF(sy)dm(y)对s的导数。
此时,我们令 t → ∞ t\to\infty t,再采用关键更新定理,就能得到:
lim ⁡ t → ∞ P ( t ) = H ‾ ( ∞ ) + 1 / μ ∫ 0 ∞ H ‾ ( y ) d y = 0 + E ( Z ) / μ = E ( Z ) / [ E ( Z ) + E ( Y ) ] \lim_{t\to\infty} P(t)=\overline{H}(\infty)+1/\mu\int_0^\infty \overline{H}(y)dy=0+E(Z)/\mu=E(Z)/[E(Z)+E(Y)] tlimP(t)=H()+1/μ0H(y)dy=0+E(Z)/μ=E(Z)/[E(Z)+E(Y)]
原命题得证。
一开始我看着关键更新定理这个卷积公式就头疼,但是后来发现,并非它以卷积形式定义,而是它就写成这种形式,并且有的时候我们恰好就会得到这种形式的式子,因此可以套进去解答。从证明过程中可以看到,的确用到了关键更新定理。

7.2 年龄和剩余寿命的分布

假如我们定义年龄 A ( t ) A(t) A(t)为当前更新阶段,经过的时间,也就是
A ( t ) = t − S N ( t ) A(t)=t-S_{N(t)} A(t)=tSN(t)
我们希望得到 A ( t ) A(t) A(t)的分布。
这个又是什么意思呢!我们说一个看电影的例子。假如电影院接连不断地放电影,每一部电影时间长度也不一定一样。我是一个白嫖党,偷偷蹲在厕所里,假装是出来上厕所回影厅的观众。我还比较希望能完整地看完一部电影,所以开场30分钟以上的电影我就不想看了。我比较关心某个时刻,我从厕所出来进入影厅,当前电影开映小于30分钟的概率。
这个概率要分为两部分求。假如这部电影本身就小于30分钟,那我任意时刻进去都满足我的要求(虽然不是很符合我的本意);假如这部电影大于30分钟,那我就不一定能在想要的时间进入影厅了。我们把这个过程看作一个交替更新过程,开表示进去之后电影开映小于等于30分钟,关表示进去之后电影开映大于30分钟。利用上面一节求出的概率分布
lim ⁡ t → ∞ P [ Y ( t ) ≤ x ] = E [ min ⁡ ( X , x ) ] / E [ X ] = ∫ 0 ∞ P [ min ⁡ ( X , x ) > y ] d y / μ = ∫ 0 x P [ X > y ] d y / μ \lim_{t\to\infty} P[Y(t)\leq x]=E[\min(X,x)]/E[X]=\int_0^\infty P[\min(X,x)>y]dy/\mu=\int_0^x P[X>y]dy/\mu tlimP[Y(t)x]=E[min(X,x)]/E[X]=0P[min(X,x)>y]dy/μ=0xP[X>y]dy/μ
第一个等号的含义我之前已经解释过了;第二个等号是用一个比较老的手法,令 I y = 0 , 1 I_y=0,1 Iy=0,1,其中1表示当前更新阶段经过的时间不到y;第三个等号,首先看积分上限,是由于 x ≥ min ⁡ ( X , x ) > y x\geq \min(X,x)>y xmin(X,x)>y,所以如果 y > x y>x y>x,这个概率直接清零,因此丢弃 y > x y>x y>x的部分,而在 x > y x>y x>y的前提下, min ⁡ ( X , x ) > y \min(X,x)>y min(X,x)>y的概率就是 X > y X>y X>y的概率。

Example3.4A.假如顾客到达某个商店的间隔时服从 F F F分布,每位顾客买商品的个数服从分布 G G G,且顾客的数量和单个顾客购买的商品数量相互独立。这个商店只有一个货架。商店采用如下的补货策略:当货架上的货少于 s s s个时,直接补满到 S S S个。补货是立即完成的。起始时刻,货架是满的。我们想知道货架上货物个数在时间 t → ∞ t\to\infty t时的分布。

当然,我觉得这道题还得假设一下,顾客是不可能把商品上的货物买到断货(负数)的。
我们先用上上面的结论,把补货过程看作一个更新过程,用 X ( t ) X(t) X(t)表示t时刻货架上剩下的货物数量,写出第一个等式:
lim ⁡ t → ∞ P [ X ( t ) ≥ x ] = E [ 货 架 上 货 物 多 于 x 的 时 间 ] / E [ 补 货 周 期 的 长 度 ] \lim_{t\to\infty} P[X(t)\geq x]=E[货架上货物多于x的时间]/E[补货周期的长度] tlimP[X(t)x]=E[x]/E[]
由于买货是顾客的行为,一位顾客进来,买一次商品。所以补货周期等于从货架为满时开始算,到第一位把货架上的货消耗到小于 s s s的顾客到来所经过的时间。而货架上货物多于x的时间,等于从货架为满时开始算,到第一位把货架上的货消耗到小于 s s s的顾客到来所经过的时间。所以
补货周期= Σ 1 N s X i \Sigma_1^{N_s}X_i Σ1NsXi
货架上多于x个货物的时间= Σ 1 N x X i \Sigma_1^{N_x}X_i Σ1NxXi

其中 N s , N x N_s,N_x NsNx分别表示从货架为满时开始算,到第一位把货架上的货消耗到小于 s , x s,x s,x的序号。
由于单个顾客买货物的数量与顾客到来是相互独立的,取期望之后可以作简化。
E [ 货 架 上 货 物 多 于 x 的 时 间 ] / E [ 补 货 周 期 的 长 度 ] = E [ Σ 1 N s X i ] / E [ Σ 1 N x X i ] = E ( N x ) E ( X ) / [ E ( N s ) E ( X ) ] = E ( N x ) / E ( N s ) E[货架上货物多于x的时间]/E[补货周期的长度]=\\E[\Sigma_1^{N_s}X_i]/E[\Sigma_1^{N_x}X_i]=E(N_x)E(X)/[E(N_s)E(X)]=E(N_x)/E(N_s) E[x]/E[]=E[Σ1NsXi]/E[Σ1NxXi]=E(Nx)E(X)/[E(Ns)E(X)]=E(Nx)/E(Ns)
接下来我们啃这俩N的期望。我们把顾客买商品的过程,也看成一个更新过程——只考虑买,不考虑补货,把每位顾客买走的商品个数看作间隔时,把顾客买走的商品总数看作到达时。这样,就可以使用计数期望: m ( t ) = E [ N ( t ) ] m(t)=E[N(t)] m(t)=E[N(t)]来求解了!
首先弄清两个事情:如果t时刻,某位顾客买完商品之后,货架上只剩下 x x x件商品,这时的情况符合我们要求的情况吗?符合!由于数量是整数,所以下一位顾客来了 X ( t ) ≥ x X(t)\geq x X(t)x的状态才终结!
同样的,如果某位顾客买完商品之后,货架上只剩下 s s s件商品,我们需要补货吗?不需要!补货是下一位顾客来了之后才要做的!
所以,我们搬出 m ( t ) = E [ N ( t ) ] m(t)=E[N(t)] m(t)=E[N(t)]可以有:
E [ N x − 1 ] = m ( S − x ) , E [ N s − 1 ] = m ( S − s ) E[N_x-1]=m(S-x),E[N_s-1]=m(S-s) E[Nx1]=m(Sx)E[Ns1]=m(Ss)
把1挪到右边去,就可以得出我们想要的概率:
lim ⁡ t → ∞ P [ X ( t ) ≥ x ] = m ( S − x ) + 1 m ( S − s ) + 1 , s ≤ x ≤ S \lim_{t\to\infty} P[X(t)\geq x]=\frac{m(S-x)+1}{m(S-s)+1},s\leq x \leq S tlimP[X(t)x]=m(Ss)+1m(Sx)+1,sxS

8 延时更新过程和简单随机游走

这两个知识分别对应书上的5和7节,理论上是应该分开的,但是老师是让我们课后学习,而且后续马尔可夫过程的时候也有用到,所以就简单提一下。

8.1 延时更新过程

延时更新过程的定义是,从第二次更新开始,间隔时都是独立同分布的随机变量;第一次更新可能遵循不同的分布。举个例子,就像任意一个时刻开始,观察一个更新过程,由于进入的时间是任意的,所以第一次观察到的更新间隔时可能会更短一点。

8.2 对称简单随机游走

首先介绍一下简单随机游走。这里以一维的为例讲解。
在一个数轴上,某质点以0为起点,任意时刻都随机向左或者向右走一步,这一过程可以抽象成简单随机游走过程。
如果向左或者向右走的概率相同,那么就称之为对称简单随机游走。
比方说,赌徒抛硬币,正面得一分,反面得-1分,这个得分的轨迹就是个对称简单随机游走的过程。
接下来,研究简单随机游走的几个性质:

质点某一时刻处于原点的概率
质点某一时刻第一次回到原点的概率
质点某一时刻从未回到原点的概率
质点回到原点之后的行为
质点到某一时刻之前,处于正半轴和负半轴的时间长度分布

8.2.1 质点某一时刻第一次回到原点的概率

首先,我们计算一下质点某一时刻处于原点的概率。这个概率很简单:奇数次游走,一定不可能回到原点,那么在某个偶数 2 n 2n 2n次时,如果回到原点,等同于一共抛出了n个正面和n个反面。我们把当前的积分记作 Z 2 n Z_{2n} Z2n,它的概率记作 u n u_n un,得到:
u n = P ( Z 2 n = 0 ) = C 2 n n ( 1 / 2 ) 2 n u_n=P(Z_{2n}=0)=C_{2n}^n(1/2)^{2n} un=P(Z2n=0)=C2nn(1/2)2n
这个结果是比较容易就能得到的。接下来我们考虑质点某一时刻第一次回到原点的概率。可以考虑如下的场景(来自于第一章的一个例题):

Example 1.5E 考虑一个选举场景,有两个候选人A和B。假如最终A得了n票,B得了m票,且n>m。假设每位选民投给俩人的概率都相等,求证A一直领先B的概率为(n-m)/(n+m)

首先将情况分为A得到了最后一张票和B得到了最后一张票。那么这个概率(其实是已知A得了n票,B得了m票的条件概率)可以写为:
P ( A 一 直 到 t 时 刻 都 领 先 B ) = P ( A 一 直 到 t − 1 时 刻 都 领 先 B , A 得 最 后 一 票 ) + P ( A 一 直 到 t − 1 时 刻 都 领 先 B , B 得 最 后 一 票 ) P(A一直到t时刻都领先B)=P(A一直到t-1时刻都领先B,A得最后一票)+P(A一直到t-1时刻都领先B,B得最后一票) P(AtB)=P(At1BA)+P(At1BB)
用条件概率展开第一项,由于已知每个人的票数,所以最后一票投给A的概率为n/(m+n)。将时间回溯到t-1时刻,相当于A得了n-1票,B还是m票
P ( A 一 直 到 n − 1 时 刻 都 领 先 B ∣ A 得 最 后 一 票 ) P ( A 得 最 后 一 票 ) = P ( A 领 先 ∣ A 得 n − 1 票 , B 得 m 票 ) ∗ n / ( m + n ) P(A一直到n-1时刻都领先B|A得最后一票)P(A得最后一票)=P(A领先|A得n-1票,B得m票)*n/(m+n) P(An1BA)P(A)=P(AAn1Bm)n/(m+n)
这下子,可以把题目里需要求证的带进去了,得到这个概率为:
( n − 1 − m ) / ( n − 1 + m ) ∗ n / ( m + n ) (n-1-m)/(n-1+m)*n/(m+n) (n1m)/(n1+m)n/(m+n)
同理,如果是B得了最后一票,这个概率为
( n − m + 1 ) / ( n + m − 1 ) ∗ m / ( m + n ) (n-m+1)/(n+m-1)*m/(m+n) (nm+1)/(n+m1)m/(m+n)
把他们加起来,就可以得到:
P ( A 一 直 到 t 时 刻 都 领 先 B ∣ A 得 了 n 票 , B 得 了 m 票 ) = ( n + m − 1 ) ( n − m ) / ( m + n ) / ( m + n − 1 ) = ( n − m ) / ( n + m ) P(A一直到t时刻都领先B|A得了n票,B得了m票)=(n+m-1)(n-m)/(m+n)/(m+n-1)=(n-m)/(n+m) P(AtBAnBm)=(n+m1)(nm)/(m+n)/(m+n1)=(nm)/(n+m)
而t=1时刻,A领先,只有A得一票这种情况,可以验证
P ( A 一 直 到 t = 1 时 刻 都 领 先 B ∣ A 得 了 1 票 , B 得 了 0 票 ) = 1 / ( 1 + 0 ) = 1 = ( n − m ) / ( n + m ) P(A一直到t=1时刻都领先B|A得了1票,B得了0票)=1/(1+0)=1=(n-m)/(n+m) P(At=1BA1B0)=1/(1+0)=1=(nm)/(n+m)
满足等式
也就是说,我们用数学归纳法,把题目证明完了。接下来,我们可以得到质点某一时刻第一次回到原点的概率了。
第一次回到原点,等同于求(第2n张票时,A,B各得了n张票)且(一直到2n-1张票时,A一直领先)的联合概率。后边这个条件,在给定前边的条件时,就等同于(A得了n票,B得了n-1票时,A一直领先)的概率。那么我们可以得到这个概率为:
P ( Z 2 ≠ 0 , Z 4 ≠ 0 , . . . Z 2 n − 2 ≠ 0 , Z 2 n = 0 ) = ( n − ( n − 1 ) ) / ( n + n − 1 ) ∗ u n = u n / ( 2 n − 1 ) P(Z_2\neq 0, Z_4\neq 0,...Z_{2n-2}\neq 0,Z_{2n}= 0)=(n-(n-1))/(n+n-1)*u_{n}=u_{n}/(2n-1) P(Z2=0,Z4=0,...Z2n2=0,Z2n=0)=(n(n1))/(n+n1)un=un/(2n1)

8.2.2 质点某一时刻从未回到原点的概率

有了上面的铺垫,我们可以求取这个概率了。这个概率等同于求 Z 1 ≠ 0 , Z 2 ≠ 0 , . . . , Z 2 n − 2 ≠ 0 , Z 2 n ≠ 0 Z_1\neq0,Z_2\neq0,...,Z_{2n-2}\neq0,Z_{2n}\neq0 Z1=0,Z2=0,...,Z2n2=0,Z2n=0的概率。
我们先求在t=2时刻,未回到原点的概率(因为奇数时间肯定不回到原点)。
P [ Z 1 ≠ 0 , Z 2 ≠ 0 ] = 1 − P [ Z 1 ≠ 0 , Z 2 = 0 ] P[Z_1\neq0,Z_2\neq0]=1-P[Z_1\neq0,Z_2=0] P[Z1=0,Z2=0]=1P[Z1=0,Z2=0]
同理,t=4时刻未回到原点的概率,等同于上面的概率再减去 Z 1 ≠ 0 , Z 2 ≠ 0 , Z 3 ≠ 0 , Z 4 = 0 Z_1\neq0,Z_2\neq0,Z_3\neq0,Z_4=0 Z1=0,Z2=0,Z3=0,Z4=0的概率。实在不理解,可以画个集合的示意图看看。

因此,我们要求取的概率就为:
P [ Z 1 ≠ 0 , Z 2 ≠ 0 , . . . , Z 2 n − 2 ≠ 0 , Z 2 n ≠ 0 ] = 1 − Σ k = 1 n P [ Z 1 ≠ 0 , . . , Z 2 k − 1 ≠ 0 , Z 2 k = 0 ] = 1 − Σ k = 1 n u k / ( 2 k − 1 ) = 1 − Σ k = 1 n − 1 u k / ( 2 k − 1 ) − u k / ( 2 n − 1 ) = u k − 1 − u k / ( 2 n − 1 ) = u k \begin{aligned} P[Z_1\neq0,Z_2\neq0,...,Z_{2n-2}\neq0,Z_{2n}\neq0]&=1-\Sigma_{k=1}^nP[Z_1\neq0,..,Z_{2k-1}\neq0,Z_{2k}=0]\\ &=1-\Sigma_{k=1}^nu_k/(2k-1)\\ &=1-\Sigma_{k=1}^{n-1}u_k/(2k-1)-u_k/(2n-1)\\ &=u_{k-1}-u_k/(2n-1)\\ &=u_k \end{aligned} P[Z1=0,Z2=0,...,Z2n2=0,Z2n=0]=1Σk=1nP[Z1=0,..,Z2k1=0,Z2k=0]=1Σk=1nuk/(2k1)=1Σk=1n1uk/(2k1)uk/(2n1)=uk1uk/(2n1)=uk
最后一个等于号,可以自己根据 u k u_k uk的定义计算一下, u k = ( 2 k − 1 ) u k − 1 / 2 k u_k=(2k-1)u_{k-1}/2k uk=(2k1)uk1/2k

8.2.3 质点回到原点之后的行为

只要质点回到原点,后面的过程就和从原点开始的过程的概率分布一模一样了,这是很好理解的。这样,简单随机游走可以看作是更新过程,每次从原点出发再回到原点,就是一次更新过程。

8.2.4 质点到某一时刻之前,处于正半轴和负半轴的时间长度分布

这里先贴一张书上的图,不然感觉不好解释了。首先,随机游走每个时刻距离原点的距离可能会是这样的。如下图,这个质点在8个单位时间内,处于正半轴6个时间单位,处于负半轴两个时间单位。注意,这里说的是整段时间都在正或者负半轴的情况,不是说某个时间点处于正半轴或者负半轴!换句话说,是看线段而不是看点!那么,我们想知道,在某个时间之前,质点处于正半轴和负半轴各多长时间的分布。要注意的是,这里的图虽然是穿过了原点一次,但是实际上,很可能质点从未穿越原点(也就是一直为正或者一直为负),也可能穿越了多次。穿越指的是从正进入负或者反之,单纯到达到零点不算穿越。

随机游走的距离原点示意图
这里用 E k , n E_{k,n} Ek,n表示在前2n步中,处于正半轴2k个单位时间长度。那么处于负半轴的时间就是2n-2k。我们再用 b k , n b_{k,n} bk,n表示 P ( E k , n ) P(E_{k,n}) P(Ek,n)。那么,我们有:
b k , n = u k u n − k b_{k,n}=u_ku_{n-k} bk,n=ukunk
说实话,接下来又是数学归纳法证明定理了,感觉挺无聊的,还是推导更有意思一点。
所以我索性不证明了!这个定理也叫Arc Sine Laws,是由于时间无穷长的时候,这个概率的分布和arcsin有关系,感兴趣的可以查查,我这里懒得打一堆我自己都不怎么的东西了~

9 一点课后习题

Problem 3.11 一个矿工被困在一个房间里,这个房间有三扇门。第一扇门可以使这个矿工2天后脱离房间;第二扇门可以使他原地消耗4天;第三扇门使他原地消耗8天。假设他每次都等概率地挑选任意一扇门,用 T T T表示矿工脱离房间所消耗的总时间。
a)定义一个独立同分布的随机变量序列 X 1 , X 2 , . . . X_1,X_2,... X1,X2,...和停止时间 N N N,使得 T = Σ 1 N X i T=\Sigma_1^N X_i T=Σ1NXi
b)使用Wald方程计算 E [ T ] E[T] E[T]
c)计算 E [ Σ 1 N X i ∣ N = n ] E[\Sigma_1^N X_i|N=n] E[Σ1NXiN=n],注意 E [ Σ 1 N X i ∣ N = n ] ≠ E [ Σ 1 N X i ] E[\Sigma_1^N X_i|N=n]\neq E[\Sigma_1^N X_i] E[Σ1NXiN=n]=E[Σ1NXi]
d)用c中的结果,使用于b中不同的方式计算 E [ T ] E[T] E[T]

a) X n = 2 , 4 , 8 X_n=2,4,8 Xn=2,4,8且取三个值的概率都为1/3,停止时为 N = m i n { k , X k = 2 } N=min\{k,X_k=2\} N=min{k,Xk=2}
b)由于N是停止时,所以用Wald方程得到 E [ T ] = E [ Σ 1 N X i ] = E ( N ) E ( X ) E[T]=E[\Sigma_1^N X_i]=E(N)E(X) E[T]=E[Σ1NXi]=E(N)E(X)
c)如果已知N=n,说明前n-1次都没选中门1,因此前n-1次等概率选中门2、3
E [ Σ 1 N X i ∣ N = n ] = 2 + ( n − 1 ) ( 4 + 8 ) / 2 = 6 n − 4 E[\Sigma_1^N X_i|N=n]=2+(n-1)(4+8)/2=6n-4 E[Σ1NXiN=n]=2+(n1)(4+8)/2=6n4
d) E [ Σ 1 N X i ] = E [ E ( Σ 1 N X i ∣ N = n ) ] = E ( 6 n − 4 ) = 6 E ( n ) − 4 = 6 × 3 − 4 = 14 E[\Sigma_1^N X_i]=E[E(\Sigma_1^N X_i|N=n)]=E(6n-4)=6E(n)-4=6\times 3-4=14 E[Σ1NXi]=E[E(Σ1NXiN=n)]=E(6n4)=6E(n)4=6×34=14

假设顾客来到银行的人数服从参数 λ \lambda λ的泊松过程,这家银行只有一个业务员。我们再假设,顾客不愿意排队,如果顾客来的时候发现业务员正忙,他就直接离开。我们还假设每位顾客的服务时间是服从期望为 μ \mu μ的分布G的随机变量。
a)请问相邻两位顾客进入银行的间隔的期望是多少?
b)请问进入银行的顾客人数占来银行顾客的总人数的比例是多少?

a)我们定义如下的更新过程:从上一位顾客开始服务的时候算起,到下一个顾客开始接受服务为一次更新。如果已知顾客的服务时间为 x x x,那么我们把停止时定义为:上一次服务结束后来的第一位顾客。这样,在这位顾客的服务时间内,一共来了 N ( x ) N(x) N(x)位顾客,然后又来了一位顾客,终结了这次更新,因此一次更新,一共来了 N ( x ) + 1 N(x)+1 N(x)+1位顾客。而在已知停止时的情况下,通过Wald
方程可以很简单地算出这次更新的间隔时期望。再把所有的 x x x进行积分,可以得到
∫ 0 ∞ E [ S N ( x ) + 1 ] d G ( x ) = ∫ 0 ∞ E ( N ( x ) + 1 ) E ( X ) d G ( x ) = ∫ 0 ∞ ( λ x + 1 ) ∗ ( 1 / λ ) d G ( x ) = ∫ 0 ∞ ( x + 1 / λ ) d G ( x ) = E ( G ) + 1 / λ = μ + 1 / λ \int_0^\infty E[S_{N(x)+1}]dG(x)=\int_0^\infty E(N(x)+1)E(X)dG(x)=\int_0^\infty (\lambda x+1)*(1/\lambda) dG(x)\\=\int_0^\infty (x+1/\lambda) dG(x)=E(G)+1/\lambda=\mu+1/\lambda 0E[SN(x)+1]dG(x)=0E(N(x)+1)E(X)dG(x)=0(λx+1)(1/λ)dG(x)=0(x+1/λ)dG(x)=E(G)+1/λ=μ+1/λ
b)我们定义如下的交替更新过程:在一次更新中,上一位顾客还在服务中为“开”;上一位顾客走了,下一位顾客还没来的空档期为“关”。我们可以很轻松的算出,顾客来时为“关”的概率为
P ( t 时 刻 为 关 ) = E ( 关 的 时 间 ) / E ( 间 隔 时 ) = 1 / λ / ( μ + 1 / λ ) = 1 / ( μ λ + 1 ) P(t时刻为关)=E(关的时间)/E(间隔时)=1/\lambda/(\mu+1/\lambda)=1/(\mu\lambda+1) P(t)=E()/E()=1/λ/(μ+1/λ)=1/(μλ+1)
这个概率也就是顾客进银行的比例

10 后记

写了好几天,最终其实还是不太知道更新过程想干啥。尤其不太理解为什么各个定理,尤其是后面的定理,都是 t → ∞ t\to\infty t的极限?还好看了看老师布置的作业,还是有思路的。下一章的马尔可夫过程又开始了,加油!
20200429:由于马尔可夫过程中,用到了一些简单随机游走的知识,因此补上这一部分。

  • 13
    点赞
  • 77
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值