随机过程（3）——更新过程

最新推荐文章于 2024-03-18 07:02:47 发布

卡拉叽里呱啦

最新推荐文章于 2024-03-18 07:02:47 发布

阅读量6.6k

点赞数 16

分类专栏：数学

本文链接：https://blog.csdn.net/qq_33309098/article/details/105485099

版权

数学专栏收录该内容

4 篇文章

订阅专栏

文章目录

1.前言
2.更新过程简介
- 2.1更新过程的一些简单性质
3.主要符号的引入
4. $N (t)$ 的分布
- 4.1 $m (t)$ 的另一种表示
- 4.2 $m (t)$ 是有界的
5 一些极限理论
6 关键更新定理及其应用
7 交替更新过程
- 7.1 开、关概率的极限分布
- 7.2 年龄和剩余寿命的分布
8 延时更新过程和简单随机游走
9 一点课后习题
10 后记

1.前言

如约来到了第三篇。
感觉最近很浮躁，动不动就打好久农药，心里期盼着快点开学，但是听说开学之后要蹲监狱，emmmmm，我还是宅在家吧。待到娱乐场所都开放之时，应该就没这么无聊了。
老师在上这一章的时候，说这不是重点，然而还是讲了洋洋洒洒4节课吧，而且基本上后面的课都讲得我云里雾里，希望自己整理一遍之后能知道更新过程到底在说啥。

2.更新过程简介

在泊松过程中，我曾经提到过泊松过程的第三定义：
对于一串服从均值为 $1/\lambda$ 的指数分布的独立同分布的序列 $\{X_n,n\geq1\}$ ，事件n发生在时间
$S_n=\Sigma_{i=1}^{n}X_i$
处。这个计数过程也就是服从参数为 $\lambda$ 的泊松过程。
也就是说，间隔时服从独立同分布的泊松分布的计数过程，是泊松过程。现在考虑更一般化的间隔时，间隔时服从分布 $F$ ，且为了让这个分布有意义， $F (0) < 1$ 。同时我们还使用 $X_n$ 表示间隔时，用 $\mu$ 表示间隔时的期望， $S_n$ 表示到达时，用 $N (t)$ 表示在时间 $t$ 之前发生的事件总数。也就是如下的数学公式：
到达时： $S_0=0，S_n=\Sigma_{i=1}^nX_i,n\geq 1$
间隔时的期望： $\mu=E[X_n]=\int_0^\infty xdF(x)$
计数值： $N(t)=sup[n:S_n\leq t]$

那么，可以看出，泊松过程只是更新过程的一种。如果使用更新过程的属性来定义泊松过程，那就是说泊松过程是间隔时服从均值为 $1/\lambda$ 的指数分布的更新过程。
在更新过程中，我们将无差别地使用“事件”和“更新”两个词，也就是说，发生了一次事件和发生了一次更新，在这一章是等价的。

2.1更新过程的一些简单性质

由间隔时独立同分布可知，每个更新阶段都依概率重复，这一性质和泊松过程是一样的。

有限时间内只会发生有限次更新：
依大数定率可知， $\lim_{n\to\infty}S_n/n\to E(S_n/n)=E(S_n)/n$
$E(S_n)/n=E(\Sigma_{i=1}^nX_i)/n=\Sigma_{i=1}^nE(X_i)/n=nE(X_n)/n=\mu$
所以也可以写成 $\lim_{n\to\infty}S_n/\mu=n$
这里的收敛都是依概率收敛。
可以看到，有限的时间内只可能发生有限次的事件。因此， $N (t)$ 也是有限的，所以可以将 $N (t)$ 中的 $s u p$ 换为 $m a x$ ，即
$N(t)=max[n:S_n\leq t]$

3.主要符号的引入

这一章用了很多的符号，在简介中已经有不少了。这里先列出来，以达到把书读薄，避免混淆的目的。

间隔时： $X_n$
间隔时服从的分布： $F$
到达时： $S_0=0，S_n=\Sigma_{i=1}^nX_i,n\geq 1$
到达时服从的分布： $F_n$
间隔时的期望： $\mu=E[X_n]=\int_0^\infty xdF(x)$
计数值： $N(t)=max[n:S_n\leq t]$
计数期望： $m (t) = E [N (t)]$

4. $N (t)$ 的分布

从泊松过程中，我们就知道 $P[N(t)=0]=P[X_1> t]=1-P[X_1\leq t]=1-F(t)$ 。这个公式很好理解：t时刻计数为0说明第一个事件发生的事件大于t。从这里出发，我们可以计算出 $N (t)$ 的分布：
$N(t)\geq n <==>S_n\leq t$
$P[N(t)=n]=P[N(t)\geq n]-P[N(t)\geq n+1]=P[S_n\leq t]-P[S_{n+1}\leq t]=F_n(t)-F_{n+1}(t)$
令
$m (t) = E [N (t)]$
我们称 $m (t)$ 为更新函数。多数更新理论都是关注更新函数的性质。
$m (t)$ 可以唯一地决定一个更新过程，调换顺序也成立，证明略去。

4.1 $m (t)$ 的另一种表示

$m(t)=\Sigma_{n=1}^\infty F_n(t)$
证明：令 $N(t)=\Sigma_{n=1}^\infty I_n$ ，其中
$I_n=\begin{cases} 1 ，若第n次更新在[0,t]内发生\\ 0，其他情况 \end{cases}$
这是一个比较老的手法了，在之前的解题中也用过。
所以有
$E[N(t)]=E[\Sigma_{n=1}^\infty I_n]=\Sigma_{n=1}^\infty E[I_n]=\Sigma_{n=1}^\infty P(S_n \leq t)=\Sigma_{n=1}^\infty F_n(t)$
注意：期望和求合符号需要满足非负才可以互换位置。

4.2 $m (t)$ 是有界的

也就是 $m(t)<\infty,0<t<\infty$
证明：由于 $P(X_n=0)<1$ ，由概率的连续性可知， $\exist\alpha>0,P(X_n\geq \alpha)>0$ 现在我们定义一个截断的更新过程，其间隔时满足
$\overline{X}_n= \begin{cases} 0,ifX_n<\alpha \\ \alpha ,ifX_n\geq \alpha \end{cases}$
我们令 $\overline{N}(t)=sup\{\overline{X}_1+...+\overline{X}_n \leq t\}$ 。
也就是说，如果某个更新过程的间隔时大于 $\alpha$ ，我们就把它截断为 $\alpha$ ，如果间隔时小于 $\alpha$ ，我们就把它截断为0。用截断后的间隔时作为与之相关的更新过程的间隔时。
这样我们可以明显看出，事件只有可能发生在 $\alpha$ 的整数倍处！因为间隔时只有可能是 $\alpha$ 或者0！在其它地方，是不可能出现更新的。那么，在每个 $\alpha$ 时间内，发生更新的期望是多少呢？
这个可以看作一个几何分布，也就是只要有一次原更新过程间隔时大于 $\alpha$ ，我们认为这个相关的更新过程产生了一次更新。而间隔时大于 $\alpha$ 的概率是固定的。所以这一相关过程 $\alpha$ 时间内计数的期望为
$\frac{1}{P\{X_n>\alpha\}}$
所以
$E[N(t)]\leq E[\overline{N}(t)]\leq \frac{t/\alpha+1}{P\{X_n\geq\alpha\}}\leq\infty$
第一个等号是由于，间隔时 $\overline{X}_n\leq X_n$ ，因此相同时间内，截断后的事件计数会更多，就好像效率提高了，相同时间做的事情就多了。因此 $N(t)\leq \overline{N}(t)$ 。也就证明了更新函数，即计数值的期望是有界的。

5 一些极限理论

复习到这里，我还是对更新理论没有什么整体的把握。这一节的名字更是差，简直就像是凑数的嘛！

5.1 $N (t)$ 趋向无穷的速率

我们知道， $t\to\infty, N(t)\to\infty$ 。现在我们关心 $N (t)$ 以什么样的方式趋向无穷，是线性的，指数的，还是二次的？
$N(t)/t=1/\mu,t\to\infty$
证明：
$S_{N(t)}/N(t) \leq t/N(t)\leq S_{N(t)+1}/N(t)$
而
$S_{N(t)}/N(t)\to \mu, t\to\infty$
$S_{N(t)+1}/N(t)=\frac{S_{N(t)+1}}{N(t)+1}\times \frac{N(t)+1}{N(t)}$
$\frac{N(t)+1}{N(t)}\to1,t\to\infty$
因此
$S_{N(t)+1}/N(t)\to \mu$
因此根据夹逼定理，命题得证。

Example3.3A 一个罐子有有无限枚硬币，但是每一枚硬币都有自己的正面朝上的概率。这个概率服从(0,1)之间的均匀分布。假如我们在任意时刻，都有权选择继续投当前的硬币或拿一枚新的硬币。如果不停地抛掷硬币，而且我们的目标是为了最大化的正面朝上的比率，我们应该怎么怎么做？

这个题目有点意思。命运无常，但是我们可以自己选择继续当前的路或者选择一条新路。从这道题的答案可以看出，人的主观能动性是可以排除命运干扰，走出自己的阳关大道的！！！
好了，鸡汤喝完了，我们解题，解完题还有一口毒鸡汤。
我先给出答案中的策略：如果翻到正面，那就继续使用这枚硬币；如果出现反面，我们就换新的。
可以看到，采用这种策略，我们就可以定义一个更新过程：以拿新硬币为一个更新过程的开始，抛到反面为更新过程的结尾。因此每枚硬币的抛掷过程，都是完全重复的。我们定义某一枚硬币正面朝上的概率为p，在前n次抛掷中，出现了N(n)次反面。那么我们的正面朝上比率为
$P_h=1-lim_{n\to\infty}N(n)/n$
从刚刚的定理可以知道
$lim_{n\to\infty}N(n)/n=1/E(每次更新的时间间隔)$
而我们的策略，对于每一枚硬币来说，投掷硬币的次数是服从几何分布的。因此
$E(每次更新的时间间隔)=E(抛出反面之前抛出的正面次数+1)=E(1/(1-p))=\infty$
最后的无穷是由对概率进行积分得出的期望。
因此
$P_h=1-lim_{n\to\infty}N(n)/n=1-1/\infty=1$
也就是我们依概率稳赢。
当然啦，（回到刚刚的鸡汤）人生不是无限的，无法尝试每一种可能，所以我们也没法一定能遇到贼tm好的机会，牢牢把握住，获得赢家人生；我们也没法每次都这么理性的采取这种策略，人还是贪心的，或者舍不得自己的付出；而且命运给的机会，好坏也不全是均匀分布的，一般来说高斯分布比较符合吧！所以这道题可以是甜鸡汤，也能是一碗毒鸡汤。

5.2 Wald方程

5.2.1 停止时的概念

我们首先引入停止时的概念：对于一个整数变量N，如果它只和序列 ${X_1,...,X_n,X_{n+1},...\}$ 中的 ${X_1,...X_n\}$ 有关，而且独立于 ${X_{n+1},...\}$ ，那么我们称 ${N=n\}$ 是一个停止时。
再直观一点解释，就是说，只要观察前N部分就能判断停止时的发生了。再举个例子说，就是比方说我们打游戏的时候，说：
$赢一把就不玩了！$
如果观测到第n把的时候，赢了，那我们就停止游戏，理想情况下我们不会再打第n+1把了，所以可以说n是一个停止时。虽然一般来说还会忍不住接着往下打，理由也很多，赢得太简单啊，没打C位啊，队友太强啊。
还可以比方说，我们立一个flag：
$今天 11 点就睡！$
后面的就不说了，大家都懂

5.2.2 Wald方程

若 $X_n$ 表示独立同分布的，期望有限的变量，且 $N$ 为这个序列的停止时。那么我们有：
$E[\Sigma_1^NX_n]=E[N]E[X]$
证明：令
$I_n=\begin{cases} 1 ，N\geq n\\ 0，N<n \end{cases} ==>\Sigma_1^N X_n=\Sigma_1^\infty X_nI_n$
所以
$E[\Sigma_1^NX_n]=\Sigma_1^\infty E[X_nI_n]$
由于 $I_n$ 只决定于 $X_i$ 的前 $n - 1$ 项。因为如果 $I_n=0$ ，说明停止时至少在 $n - 1$ 处已经发生了！ $n$ 是停止时之后的第一项！这点很重要，这说明了， $I_n$ 和 $X_n$ 是相互独立的，期望可以拆开。
$E[\Sigma_1^NX_n]=\Sigma_1^\infty E[X_n]E[I_n]= E[X]\Sigma_1^\infty E[I_n]=E[X] E[\Sigma_1^\infty I_n]=E[N]E[X]$
证毕。

Example3.3如果我们抛掷一枚均匀的硬币，正面得分1，反面得分0，令N表示我们第一次累计得分为10的抛掷次数，请问N的期望是多少？如果正面得分1，反面得分-1呢?

这道题很明显，N是一个停止时。所以直接用上面的公式，先看反面得分为0的情况：
$10=E[\Sigma_1^NX_n]=E[N]E[X]=0.5E(N)=>E(N)=20$
再看反面得分为-1的情况：
$10=E[\Sigma_1^NX_n]=E[N]E[X]=0E(N)=>E(N)=\infty$
竟然出来了个无穷？我们先放着无穷的不管，有穷的结果还是令人满意的，求解过程挺简洁。

5.2.3 更新过程中的停止时

假如我们在时间t后发生第一次更新时停止。那么 $N (t) + 1$ 就是一个停止时。原因：
$N(t)+1=n<==>N(t)=n-1<==>X_1+...+X_{n-1}\leq t而且X_1+...+X_{n}>t$
只有在t之后第一件事发生，才能断定是停止时。为什么不是t之前的最后一件事呢？因为在t过完之前，我们不可能知道这是最后一件事啊！就好像我们在人生起起落落落落落落落落时，总想着，
$这回倒霉之后肯定要转运了！$
但是不到真的某一次碰到好运的时候，你能说自己真的转运了吗！即使好运一次之后，又是不断地落落落，那也算是一个倒霉过程停止了（只不过另一个倒霉过程又开始了）。
回到正题。这说明：
$E[S_{N(t)+1}]=E[X_1+...+X_{N(t)+1}]=E[X]E[N(t)]=\mu [m(t)+1]$

5.2.4 初等更新定理

看这题目就觉得很NB，这一章叫做更新过程，那更新定理岂不是其中最重要的东西了？
说实话，上课老师提到更新定理的时候，我蒙圈了好久，不知道更新定理是什么定理。结果就是下面这个公式？？
$m(t)/t\to 1/\mu,t\to\infty$
定理的证明过程我不想抄了，主要就是利用了上一节的 $E[S_{N(t)+1}]=\mu [m(t)+1]$ 这个结论，并且利用 $S_{N(t)+1}\geq t$ ，两边取期望，可以得到我们想证明的极限的下界。然后再利用它的相关过程：截断过程 $\overline{S}_{N(t)+1}\leq t+M$ ，取期望，得到极限的上界。
我们看着这个定理。我再把这两个符号解释一下：
$\mu=E[X_n]$
$m (t) = E [N (t)]$
把它们带入，得到
$E[N(t)]/t\to 1/\mu,t\to\infty$
我们再回到上面的一个极限的结论：
$N(t)/t\to 1/\mu,t\to\infty$
欸，证明了这么久的定理，怎么和这个似曾相识？拿之前的结论两边直接取极限不完就了吗！
这是不对的。我们可以把这个问题抽象为逐点收敛和积分收敛的问题。
一个函数收敛到0，那它的积分也能收敛到0吗？考虑一个函数，其中U为(0,1)间均匀分布
$Y_n=\begin{cases} 0,U>1/n \\ n,U\leq 1/n \end{cases}$
它是收敛到0的。但是它的期望
$E(Y_n)=nP[U\leq 1/n]=1$
说明函数收敛到0和期望收敛到0并不能等价。

5.2.5 $N (t)$ 的中心极限分布

当 $t\to\infty$ 时， $N(t)\to (t/\mu,t\sigma^2/\mu^3)$ 的正态分布。其中 $\mu,\sigma^2$ 分别表示间隔时的均值和方差。证明略去（懒）

6 关键更新定理及其应用

首先解释“格”的概念：
如果
$\Sigma_{n=0}^\infty P[X=nd]=1$
也就是，更新只可能发生在d的整数倍的点上，那么我们称这种更新过程是带格的。反之，则说它是不带格的。

~~sorry，这一节后面的我看吐了，竟然有卷积，暂且跳过~~
20200521：昨天上了复习课之后，对关键更新定理有了更好的理解，因此删去这句不成熟的话。

6.1 Blackwell定理

i)如果F不是带格的，那么
$t\to\infty,m(t+a)-m(t)\to a/\mu$
ii)如果F周期为d，那么
$n\to\infty,E[nd处发生更新的次数]\to d/\mu$

6.2 关键更新定理

如果F是非周期的， $h (t)$ 是直接黎曼可积的，那么有：
$\lim_{t\to\infty}=\int _0^th(t-x)dm(x)=1/\mu\int _0^th(x)dx$
其中 $m(x),\mu$ 的定义是本章的惯用符号，而 $h (x)$ 只需要满足直接黎曼可积的条件下，任意都可。
我们从Blackwell定理出发，可以推导出关键更新定理：
$\lim_{t\to\infty}m(t+a)-m(t)= a/\mu=>\lim_{t\to\infty}\lim_{a\to0}[m(t+a)-m(t)]/a=\lim_{t\to\infty}dm(t)/dt= 1/\mu$
也就是说，关键更新定理说明了一件事，那就是 $t\to\infty,m'(t)=1/\mu$

6.3 关键更新定理的应用

上面的结论要在下面的交替更新过程的推导中用到。
在这之前，给出一个概率分布。这个概率解释为，在当前时间之前发生的最后一件事的到达时的分布。
$\begin{aligned} P[S_{N(t)}\leq s]&=\Sigma_{n=0}^\infty P[S_n\leq s,S_{n+1}>s] \\ &= \overline F(t)+ \Sigma_{n=1}^\infty P[S_n\leq s,S_{n+1}>s] \\ &=\overline{F}(t)+ \Sigma_{n=1}^\infty\int_0^s P[S_n\leq s,S_{n+1}>s|S_n=y]P[S_n=y]dy\\ &=\overline{F}(t)+ \Sigma_{n=1}^\infty\int_0^s P[S_n\leq s,S_{n+1}>s|S_n=y]dF_n(y)\\ &=\overline{F}(t)+ \int_0^s P[X_{n+1}>s-y]\Sigma_{n=1}^\infty dF_n(y)\\ &=\overline{F}(t)+\int_0^s \overline{F}(s-y)dm(y) \\ \end{aligned}$

7 交替更新过程

交替更新过程是关键更新定理的应用
考虑这样一种系统：它拥有两个状态，开或者关。我们默认它初始是开的状态，它开了 $Z_1$ 时间，然后关。它关了 $Y_1$ 时间，然后又开 $Z_2$ 时间，然后又关，又开，……
我们先做一个假设：每个开过程的时间分布，都是独立同分布的；关也一样。但是在一个开关周期内（先开，后关），开、关的时间可以是不独立的。同时，我们用 $H, G$ 表示 $Z_n,Y_n$ 的分布， $F$ 表示间隔时，也就是 $Z_n+Y_n$ 的分布。

7.1 开、关概率的极限分布

说实话，我不知道该怎么概括这个定理。但是这个定理我觉得是这一节最重要的东西，简单又好用。
若 $E(Z_n+Y_n)<\infty$ 且F不是带格的，那么有
$\lim_{t\to\infty} P(t)=E(Z_n)/[E(Z_n)+E(Y_n)]$
其中， $P (t)$ 代表在t时刻，这个系统处于‘开’状态的概率。
定理很好理解，~~我也懒得证明了。~~
比方说上课40分钟，下课5分钟，无限循环。假如某天我们没有带表，请问我们走进教室，正在上课的概率是？
~~但是为什么t要趋向于无穷啊啊啊啊啊啊啊？！！~~
接下来现在的我还是证明一下这个曾经的我不太理解的定理。
首先我们将t时刻为on分为两种情况：处于第一次更新过程，已经经历过至少一次完整的更新过程：
$\begin{aligned} P(t)&=P[on|S_{N(t)}=0]P[S_{N(t)}=0]+\int_0^tP[on|S_{N(t)}=y]dF_{S_{N(t)}}(y)\\ &=\overline{H}(t)/\overline{F}(t)\times\overline{F}(t)+\int_0^t \overline{H}(t-y)/\overline{F}(t-y)\times \overline{F}(t-y)dm(y)\\ &=\overline{H}(t)+\int_0^t \overline{H}(t-y)dm(y) \end{aligned}$
第二行的后半段，是利用了 $P[S_{N(t)}\leq s]=\overline{F}(t)+\int_0^s \overline{F}(s-y)dm(y)$ 对s的导数。
此时，我们令 $t\to\infty$ ，再采用关键更新定理，就能得到：
$\lim_{t\to\infty} P(t)=\overline{H}(\infty)+1/\mu\int_0^\infty \overline{H}(y)dy=0+E(Z)/\mu=E(Z)/[E(Z)+E(Y)]$
原命题得证。
一开始我看着关键更新定理这个卷积公式就头疼，但是后来发现，并非它以卷积形式定义，而是它就写成这种形式，并且有的时候我们恰好就会得到这种形式的式子，因此可以套进去解答。从证明过程中可以看到，的确用到了关键更新定理。

7.2 年龄和剩余寿命的分布

假如我们定义年龄 $A (t)$ 为当前更新阶段，经过的时间，也就是
$A(t)=t-S_{N(t)}$
我们希望得到 $A (t)$ 的分布。
这个又是什么意思呢！我们说一个看电影的例子。假如电影院接连不断地放电影，每一部电影时间长度也不一定一样。我是一个白嫖党，偷偷蹲在厕所里，假装是出来上厕所回影厅的观众。我还比较希望能完整地看完一部电影，所以开场30分钟以上的电影我就不想看了。我比较关心某个时刻，我从厕所出来进入影厅，当前电影开映小于30分钟的概率。
这个概率要分为两部分求。假如这部电影本身就小于30分钟，那我任意时刻进去都满足我的要求（虽然不是很符合我的本意）；假如这部电影大于30分钟，那我就不一定能在想要的时间进入影厅了。我们把这个过程看作一个交替更新过程，开表示进去之后电影开映小于等于30分钟，关表示进去之后电影开映大于30分钟。利用上面一节求出的概率分布
$\lim_{t\to\infty} P[Y(t)\leq x]=E[\min(X,x)]/E[X]=\int_0^\infty P[\min(X,x)>y]dy/\mu=\int_0^x P[X>y]dy/\mu$
第一个等号的含义我之前已经解释过了；第二个等号是用一个比较老的手法，令 $I_y=0,1$ ，其中1表示当前更新阶段经过的时间不到y；第三个等号，首先看积分上限，是由于 $x\geq \min(X,x)>y$ ，所以如果 $y > x$ ，这个概率直接清零，因此丢弃 $y > x$ 的部分，而在 $x > y$ 的前提下， $\min(X,x)>y$ 的概率就是 $X > y$ 的概率。

Example3.4A.假如顾客到达某个商店的间隔时服从 $F$ 分布，每位顾客买商品的个数服从分布 $G$ ，且顾客的数量和单个顾客购买的商品数量相互独立。这个商店只有一个货架。商店采用如下的补货策略：当货架上的货少于 $s$ 个时，直接补满到 $S$ 个。补货是立即完成的。起始时刻，货架是满的。我们想知道货架上货物个数在时间 $t\to\infty$ 时的分布。

当然，我觉得这道题还得假设一下，顾客是不可能把商品上的货物买到断货（负数）的。
我们先用上上面的结论，把补货过程看作一个更新过程，用 $X (t)$ 表示t时刻货架上剩下的货物数量，写出第一个等式：
$\lim_{t\to\infty} P[X(t)\geq x]=E[货架上货物多于x的时间]/E[补货周期的长度]$
由于买货是顾客的行为，一位顾客进来，买一次商品。所以补货周期等于从货架为满时开始算，到第一位把货架上的货消耗到小于 $s$ 的顾客到来所经过的时间。而货架上货物多于x的时间，等于从货架为满时开始算，到第一位把货架上的货消耗到小于 $s$ 的顾客到来所经过的时间。所以
补货周期= $\Sigma_1^{N_s}X_i$
货架上多于x个货物的时间= $\Sigma_1^{N_x}X_i$

其中 $N_s，N_x$ 分别表示从货架为满时开始算，到第一位把货架上的货消耗到小于 $s, x$ 的序号。
由于单个顾客买货物的数量与顾客到来是相互独立的，取期望之后可以作简化。
$E[货架上货物多于x的时间]/E[补货周期的长度]=\\E[\Sigma_1^{N_s}X_i]/E[\Sigma_1^{N_x}X_i]=E(N_x)E(X)/[E(N_s)E(X)]=E(N_x)/E(N_s)$
接下来我们啃这俩N的期望。我们把顾客买商品的过程，也看成一个更新过程——只考虑买，不考虑补货，把每位顾客买走的商品个数看作间隔时，把顾客买走的商品总数看作到达时。这样，就可以使用计数期望： $m (t) = E [N (t)]$ 来求解了！
首先弄清两个事情：如果t时刻，某位顾客买完商品之后，货架上只剩下 $x$ 件商品，这时的情况符合我们要求的情况吗？符合！由于数量是整数，所以下一位顾客来了 $X(t)\geq x$ 的状态才终结！
同样的，如果某位顾客买完商品之后，货架上只剩下 $s$ 件商品，我们需要补货吗？不需要！补货是下一位顾客来了之后才要做的！
所以，我们搬出 $m (t) = E [N (t)]$ 可以有：
$E[N_x-1]=m(S-x)，E[N_s-1]=m(S-s)$
把1挪到右边去，就可以得出我们想要的概率：
$\lim_{t\to\infty} P[X(t)\geq x]=\frac{m(S-x)+1}{m(S-s)+1},s\leq x \leq S$

8 延时更新过程和简单随机游走

这两个知识分别对应书上的5和7节，理论上是应该分开的，但是老师是让我们课后学习，而且后续马尔可夫过程的时候也有用到，所以就简单提一下。

8.1 延时更新过程

延时更新过程的定义是，从第二次更新开始，间隔时都是独立同分布的随机变量；第一次更新可能遵循不同的分布。举个例子，就像任意一个时刻开始，观察一个更新过程，由于进入的时间是任意的，所以第一次观察到的更新间隔时可能会更短一点。

8.2 对称简单随机游走

首先介绍一下简单随机游走。这里以一维的为例讲解。
在一个数轴上，某质点以0为起点，任意时刻都随机向左或者向右走一步，这一过程可以抽象成简单随机游走过程。
如果向左或者向右走的概率相同，那么就称之为对称简单随机游走。
比方说，赌徒抛硬币，正面得一分，反面得-1分，这个得分的轨迹就是个对称简单随机游走的过程。
接下来，研究简单随机游走的几个性质：

质点某一时刻处于原点的概率
质点某一时刻第一次回到原点的概率
质点某一时刻从未回到原点的概率
质点回到原点之后的行为
质点到某一时刻之前，处于正半轴和负半轴的时间长度分布

8.2.1 质点某一时刻第一次回到原点的概率

首先，我们计算一下质点某一时刻处于原点的概率。这个概率很简单：奇数次游走，一定不可能回到原点，那么在某个偶数 $2 n$ 次时，如果回到原点，等同于一共抛出了n个正面和n个反面。我们把当前的积分记作 $Z_{2n}$ ，它的概率记作 $u_n$ ，得到：
$u_n=P(Z_{2n}=0)=C_{2n}^n(1/2)^{2n}$
这个结果是比较容易就能得到的。接下来我们考虑质点某一时刻第一次回到原点的概率。可以考虑如下的场景（来自于第一章的一个例题）：

Example 1.5E 考虑一个选举场景，有两个候选人A和B。假如最终A得了n票，B得了m票，且n>m。假设每位选民投给俩人的概率都相等，求证A一直领先B的概率为(n-m)/(n+m)

首先将情况分为A得到了最后一张票和B得到了最后一张票。那么这个概率（其实是已知A得了n票，B得了m票的条件概率）可以写为：
$P (A 一直到 t 时刻都领先 B) = P (A 一直到 t - 1 时刻都领先 B ， A 得最后一票) + P (A 一直到 t - 1 时刻都领先 B ， B 得最后一票)$
用条件概率展开第一项，由于已知每个人的票数，所以最后一票投给A的概率为n/(m+n)。将时间回溯到t-1时刻，相当于A得了n-1票，B还是m票
$P (A 一直到 n - 1 时刻都领先 B ∣ A 得最后一票) P (A 得最后一票) = P (A 领先 ∣ A 得 n - 1 票， B 得 m 票) * n / (m + n)$
这下子，可以把题目里需要求证的带进去了，得到这个概率为：
$(n - 1 - m) / (n - 1 + m) * n / (m + n)$
同理，如果是B得了最后一票，这个概率为
$(n - m + 1) / (n + m - 1) * m / (m + n)$
把他们加起来，就可以得到：
$P (A 一直到 t 时刻都领先 B ∣ A 得了 n 票， B 得了 m 票) = (n + m - 1) (n - m) / (m + n) / (m + n - 1) = (n - m) / (n + m)$
而t=1时刻，A领先，只有A得一票这种情况，可以验证
$P (A 一直到 t = 1 时刻都领先 B ∣ A 得了 1 票， B 得了 0 票) = 1 / (1 + 0) = 1 = (n - m) / (n + m)$
满足等式
也就是说，我们用数学归纳法，把题目证明完了。接下来，我们可以得到质点某一时刻第一次回到原点的概率了。
第一次回到原点，等同于求（第2n张票时，A,B各得了n张票）且（一直到2n-1张票时，A一直领先）的联合概率。后边这个条件，在给定前边的条件时，就等同于（A得了n票，B得了n-1票时，A一直领先）的概率。那么我们可以得到这个概率为：
$P(Z_2\neq 0, Z_4\neq 0,...Z_{2n-2}\neq 0,Z_{2n}= 0)=(n-(n-1))/(n+n-1)*u_{n}=u_{n}/(2n-1)$

8.2.2 质点某一时刻从未回到原点的概率

有了上面的铺垫，我们可以求取这个概率了。这个概率等同于求 $Z_1\neq0,Z_2\neq0,...,Z_{2n-2}\neq0,Z_{2n}\neq0$ 的概率。
我们先求在t=2时刻，未回到原点的概率（因为奇数时间肯定不回到原点）。
$P[Z_1\neq0,Z_2\neq0]=1-P[Z_1\neq0,Z_2=0]$
同理，t=4时刻未回到原点的概率，等同于上面的概率再减去 $Z_1\neq0,Z_2\neq0,Z_3\neq0,Z_4=0$ 的概率。实在不理解，可以画个集合的示意图看看。

因此，我们要求取的概率就为：
$\begin{aligned} P[Z_1\neq0,Z_2\neq0,...,Z_{2n-2}\neq0,Z_{2n}\neq0]&=1-\Sigma_{k=1}^nP[Z_1\neq0,..,Z_{2k-1}\neq0,Z_{2k}=0]\\ &=1-\Sigma_{k=1}^nu_k/(2k-1)\\ &=1-\Sigma_{k=1}^{n-1}u_k/(2k-1)-u_k/(2n-1)\\ &=u_{k-1}-u_k/(2n-1)\\ &=u_k \end{aligned}$
最后一个等于号，可以自己根据 $u_k$ 的定义计算一下， $u_k=(2k-1)u_{k-1}/2k$

8.2.3 质点回到原点之后的行为

只要质点回到原点，后面的过程就和从原点开始的过程的概率分布一模一样了，这是很好理解的。这样，简单随机游走可以看作是更新过程，每次从原点出发再回到原点，就是一次更新过程。

8.2.4 质点到某一时刻之前，处于正半轴和负半轴的时间长度分布

这里先贴一张书上的图，不然感觉不好解释了。首先，随机游走每个时刻距离原点的距离可能会是这样的。如下图，这个质点在8个单位时间内，处于正半轴6个时间单位，处于负半轴两个时间单位。注意，这里说的是整段时间都在正或者负半轴的情况，不是说某个时间点处于正半轴或者负半轴！换句话说，是看线段而不是看点！那么，我们想知道，在某个时间之前，质点处于正半轴和负半轴各多长时间的分布。要注意的是，这里的图虽然是穿过了原点一次，但是实际上，很可能质点从未穿越原点（也就是一直为正或者一直为负），也可能穿越了多次。穿越指的是从正进入负或者反之，单纯到达到零点不算穿越。

随机游走的距离原点示意图
这里用 $E_{k,n}$ 表示在前2n步中，处于正半轴2k个单位时间长度。那么处于负半轴的时间就是2n-2k。我们再用 $b_{k,n}$ 表示 $P(E_{k,n})$ 。那么，我们有：
$b_{k,n}=u_ku_{n-k}$
说实话，接下来又是数学归纳法证明定理了，感觉挺无聊的，还是推导更有意思一点。
所以我索性不证明了！这个定理也叫Arc Sine Laws，是由于时间无穷长的时候，这个概率的分布和arcsin有关系，感兴趣的可以查查，我这里懒得打一堆我自己都不怎么的东西了~

9 一点课后习题

Problem 3.11 一个矿工被困在一个房间里，这个房间有三扇门。第一扇门可以使这个矿工2天后脱离房间；第二扇门可以使他原地消耗4天；第三扇门使他原地消耗8天。假设他每次都等概率地挑选任意一扇门，用 $T$ 表示矿工脱离房间所消耗的总时间。
a)定义一个独立同分布的随机变量序列 $X_1,X_2,...$ 和停止时间 $N$ ，使得 $T=\Sigma_1^N X_i$
b)使用Wald方程计算 $E [T]$
c)计算 $E[\Sigma_1^N X_i|N=n]$ ，注意 $E[\Sigma_1^N X_i|N=n]\neq E[\Sigma_1^N X_i]$
d)用c中的结果，使用于b中不同的方式计算 $E [T]$

a) $X_n=2,4,8$ 且取三个值的概率都为1/3，停止时为 $N=min\{k,X_k=2\}$
b)由于N是停止时，所以用Wald方程得到 $E[T]=E[\Sigma_1^N X_i]=E(N)E(X)$
c)如果已知N=n，说明前n-1次都没选中门1，因此前n-1次等概率选中门2、3
$E[\Sigma_1^N X_i|N=n]=2+(n-1)(4+8)/2=6n-4$
d) $E[\Sigma_1^N X_i]=E[E(\Sigma_1^N X_i|N=n)]=E(6n-4)=6E(n)-4=6\times 3-4=14$

假设顾客来到银行的人数服从参数 $\lambda$ 的泊松过程，这家银行只有一个业务员。我们再假设，顾客不愿意排队，如果顾客来的时候发现业务员正忙，他就直接离开。我们还假设每位顾客的服务时间是服从期望为 $\mu$ 的分布G的随机变量。
a)请问相邻两位顾客进入银行的间隔的期望是多少？
b)请问进入银行的顾客人数占来银行顾客的总人数的比例是多少？

a)我们定义如下的更新过程：从上一位顾客开始服务的时候算起，到下一个顾客开始接受服务为一次更新。如果已知顾客的服务时间为 $x$ ，那么我们把停止时定义为：上一次服务结束后来的第一位顾客。这样，在这位顾客的服务时间内，一共来了 $N (x)$ 位顾客，然后又来了一位顾客，终结了这次更新，因此一次更新，一共来了 $N (x) + 1$ 位顾客。而在已知停止时的情况下，通过Wald
方程可以很简单地算出这次更新的间隔时期望。再把所有的 $x$ 进行积分，可以得到
$\int_0^\infty E[S_{N(x)+1}]dG(x)=\int_0^\infty E(N(x)+1)E(X)dG(x)=\int_0^\infty (\lambda x+1)*(1/\lambda) dG(x)\\=\int_0^\infty (x+1/\lambda) dG(x)=E(G)+1/\lambda=\mu+1/\lambda$
b)我们定义如下的交替更新过程：在一次更新中，上一位顾客还在服务中为“开”；上一位顾客走了，下一位顾客还没来的空档期为“关”。我们可以很轻松的算出，顾客来时为“关”的概率为
$P(t时刻为关)=E(关的时间)/E(间隔时)=1/\lambda/(\mu+1/\lambda)=1/(\mu\lambda+1)$
这个概率也就是顾客进银行的比例