势函数和鞅的停时定理

借鉴了借鉴他人博客的博客

问题:
对于随机过程 { A 0 , A 1 . . . A t } \{A_0,A_1...A_t\} {A0,A1...At},有 T T T为关于这个过程停止时间的随机变量,求 E ( T ) E(T) E(T)

势函数:一个关于状态的函数 ϕ ( A ) \phi(A) ϕ(A),其中 A A A是一个状态。
对于随机过程中的任意连续两个状态 A t , A t + 1 A_t,A_{t+1} At,At+1
如果我们让 E ( ϕ ( A t + 1 ) − ϕ ( A t ) ) = − 1 E(\phi(A_{t+1}) - \phi(A_t)) = -1 E(ϕ(At+1)ϕ(At))=1
(注意到因为势函数和随机无关,有 E ( ϕ ( A ) ) = ϕ ( A ) E(\phi(A)) = \phi(A) E(ϕ(A))=ϕ(A),这里的形式只是为了套用停时定理,因此可以直接理解为 ϕ ( A t + 1 ) + 1 = ϕ ( A t ) \phi(A_{t+1}) + 1 = \phi(A_t) ϕ(At+1)+1=ϕ(At))。
并且对于初始状态 ϕ ( A 0 ) \phi(A_0) ϕ(A0)为常数。
X t = A t + t X_t = A_t + t Xt=At+t,则可以得到 E ( X t ) = E ( X 0 ) , ∀ t ≥ 0 E(X_t) = E(X_0) , \forall t \geq 0 E(Xt)=E(X0),t0
可以发现 T T T也是 { X 0 , X 1 , X 2 . . . } \{X_0,X_1,X_2...\} {X0,X1,X2...}的停时,

如果有 E ( X T ) = E ( X 0 ) E(X_T) = E(X_0) E(XT)=E(X0),则可以得到 E ( X T ) − E ( X 0 ) = E ( ϕ ( A T ) + T ) − E ( ϕ ( A 0 ) ) E(X_T) - E(X_0) = E(\phi(A_T)+T) - E(\phi(A_0)) E(XT)E(X0)=E(ϕ(AT)+T)E(ϕ(A0))
从而得到 E ( T ) = ϕ ( A 0 ) − ϕ ( A T ) E(T) = \phi(A_0) - \phi(A_T) E(T)=ϕ(A0)ϕ(AT),也就是我们只需要初始状态和结束状态的停时即可得到停时的期望。

但是 E ( X T ) E(X_T) E(XT)不一定 = E ( X 0 ) =E(X_0) =E(X0),实际上 E ( X T ) = E ( X 0 ) E(X_T) = E(X_0) E(XT)=E(X0)需要满足三个条件之一,这也就是停时定理的内容

O I OI OI做题的角度来看题目是可解的所以一定有 E ( X T ) = E ( X 0 ) E(X_T) = E(X_0) E(XT)=E(X0)
当然知道一下证明也可以防止自己出题出锅被大佬喷。

停时定理是对于鞅成立的。
鞅:
随机过程 { X 0 , X 1 . . . } \{X_0,X_1...\} {X0,X1...}
满足 E [ X t + 1 − X t ∣ X t , X t − 1 . . . X 0 ] = 0 E[X_{t+1} - X_t|X_t,X_{t-1}...X_0]=0 E[Xt+1XtXt,Xt1...X0]=0
(这句话的意思是在经历了 X 0 , X 1 . . . X t X_0,X_1...X_t X0,X1...Xt的随机过程后,下一步的 X t + 1 − X t X_{t+1} - X_t Xt+1Xt的期望值为 0 0 0
可以根据这句话推出 E ( X t ) = E ( X 0 ) , ∀ t ≥ 0 E(X_t) = E(X_0) , \forall t \geq 0 E(Xt)=E(X0),t0,但是不能反着推。

停时定理:
当满足下列三个条件之一时, E ( X T ) = E ( X 0 ) E(X_T) = E(X_0) E(XT)=E(X0),其中 T T T是停止时间。
这三个条件按顺序是对于 T T T的限制逐渐变松而对于 X X X的限制逐渐变紧。

1. T T T几乎一定有界。
几乎一定的意思是概率为 1 1 1,也就是说像是在 [ 0 , 1 ] [0,1] [0,1]中随机取一个实数不等于 x x x的概率也为 1 1 1,但是你不能说取不到。

该情况的证明:(很伪
T T T有界,则可以取 t = T t = T t=T,使得 E ( X T ) = E ( X t ) = E ( X 0 ) E(X_T) = E(X_t) = E(X_0) E(XT)=E(Xt)=E(X0)
T几乎一定有界,所以该定理几乎一定成立。
因为 T T T无界的情况概率为 0 0 0,所以无法对 E ( X T ) E(X_T) E(XT)造成贡献。

至于 T T T什么时候才会不一定有界还几乎一定有界这就是我的知识盲区了。

2. E ( T ) E(T) E(T)有限, ∣ X t + 1 − X t ∣ |X_{t+1} - X_t| Xt+1Xt一致有界或者线性增长。
有限的意思是…
算了给你们看文档 吧

3. T T T几乎一定有限, X t X_t Xt一致有界。

例题:CF 1025 G. Company Acquisitions
每个人可以有个上司,保证一个人的上司没有上司,每次随机选两个没有上司的人 x x x, y y y,将 x x x的上司变成 y y y,并且对于以 x x x为上司的人 v v v v v v将会变成没有上司的状态,求不能操作时的停时的期望。
(显然终止情况是有一个人没有上司,其他人的上司都是他。)

考虑到直接构造势函数是十分困难的,我们考虑用状态转移方程求出每个状态的势函数。
首先显然可以让终止状态的势函数 = 0 =0 =0,然后我们状压转移。
。。。
。。。
等等,那不就是在状压DP吗?
是的,在大多数情况下我们的势函数完全可以看做我们的 d p dp dp状态。。。(期望 d p dp dp
但是函数毕竟是函数,我们可以利用函数的性质进行一些变形。
比如说如果我们把每个没有上司的人和他的下属看做一个块,有 m m m个块,大小分别为 a 1 , a 2 . . . a m a_1,a_2...a_m a1,a2...am
那么我们可以构造势函数为 ϕ ( a ) = ∑ i = 1 m f ( a i ) \phi(a) = \sum_{i=1}^m f(a_i) ϕ(a)=i=1mf(ai),因为 a i a_i ai之间的顺序不重要,那么我们这下就能够减少一些不必要的信息。
之后的推式子就看这篇博客的第三个例题把

感觉你让我构造,那这方法还是没有啥优越感啊

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值