概率与统计之七
\color{green}\Large\textbf{概率与统计之七}
概率与统计之七
文章为一些读书笔记,原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著,案例讲解和讲述证明是本书的一大特点,教给人们的不只是一些概率论的概念和公式,而是思考问题的思维方式和策略。不过就是书里的错印有点多,需要边看边改。
_(:з」∠)
文章目录
一.马尔科夫链
1. 马尔科夫性与转移矩阵
-
引入目的 : 证 明 大 数 定 律 可 以 应 用 于 不 独 立 的 随 机 变 量 中 。 面 对 一 组 同 分 布 的 样 本 序 列 X 1 , X 2 , ⋯ X n , 需 要 对 现 实 世 界 的 现 象 建 模 时 , 会 出 现 两 种 极 端 假 设 { 样 本 之 间 全 部 独 立 , 过 于 严 苛 , 相 互 不 提 供 信 息 样 本 之 间 完 全 相 关 , 过 于 松 散 , 信 息 过 于 混 乱 ⇒ 综 上 所 述 需 要 一 个 介 于 两 者 之 间 的 假 设 , 于 是 提 出 具 有 一 阶 相 关 性 的 随 机 变 量 序 列 , 马 尔 科 夫 链 \textcolor{blue}{\textbf{引入目的}}:\ 证明大数定律可以应用于不独立的随机变量中。\\ 面对一组同分布的样本序列X_1,X_2,\cdots X_n,需要对现实世界的现象建模时,会出现两种极端假设\\ \begin{cases}&样本之间全部独立,过于严苛,相互不提供信息\\&样本之间完全相关,过于松散,信息过于混乱\end{cases}\xRightarrow{综上所述}需要一个介于两者之间的假设,\\于是提出具有一阶相关性的随机变量序列,马尔科夫链 引入目的: 证明大数定律可以应用于不独立的随机变量中。面对一组同分布的样本序列X1,X2,⋯Xn,需要对现实世界的现象建模时,会出现两种极端假设{样本之间全部独立,过于严苛,相互不提供信息样本之间完全相关,过于松散,信息过于混乱综上所述需要一个介于两者之间的假设,于是提出具有一阶相关性的随机变量序列,马尔科夫链
-
状态空间 : 链 中 随 机 变 量 X n 的 所 有 可 能 值 组 成 的 集 合 , 可 以 认 为 是 支 撑 , 下 标 n 表 示 过 程 随 时 间 的 变 化 而 变 化 \textcolor{blue}{\textbf{状态空间}}:链中随机变量X_n的所有可能值组成的集合,可以认为是支撑,下标n表示过程随时间的变化而变化 状态空间:链中随机变量Xn的所有可能值组成的集合,可以认为是支撑,下标n表示过程随时间的变化而变化
-
定义 : 对 于 随 机 变 量 序 列 X 1 , X 2 , ⋯ , X n , 序 列 中 的 每 个 元 素 都 在 集 合 { 1 , 2 , 3 , ⋯ , M } 中 取 值 , 如 果 对 于 所 有 的 n ≥ 0 都 有 P ( X n + 1 = j ∣ X n = i , X n − 1 = i n − 1 , ⋯ , X 0 = i 0 ) = P ( X n + 1 = j ∣ X n = i ) , 那 么 称 该 随 机 变 量 序 列 是 马 尔 科 夫 链 , P ( X n + 1 = j ∣ X n = i ) 为 从 状 态 i 到 状 态 j 的 转 移 概 率 \textcolor{blue}{\textbf{定义}}:对于随机变量序列X_1,X_2,\cdots,X_n,序列中的每个元素都在集合\{1,2,3,\cdots,M\}中取值,如果对于所有的n\geq0\\ 都有P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\cdots,X_0={i_0})=P(X_{n+1}=j|X_n=i),那么称该随机变量序列是\\ 马尔科夫链,P(X_{n+1}=j|X_n=i)为从状态i到状态j的转移概率 定义:对于随机变量序列X1,X2,⋯,Xn,序列中的每个元素都在集合{1,2,3,⋯,M}中取值,如果对于所有的n≥0都有P(Xn+1=j∣Xn=i,Xn−1=in−1,⋯,X0=i0)=P(Xn+1=j∣Xn=i),那么称该随机变量序列是马尔科夫链,P(Xn+1=j∣Xn=i)为从状态i到状态j的转移概率
-
马尔科夫性 : 上 述 定 义 中 的 条 件 就 是 马 尔 科 夫 性 , P ( X n + 1 = j ∣ X n = i , X n − 1 = i n − 1 , ⋯ , X 0 = i 0 ) = P ( X n + 1 = j ∣ X n = i ) 说 明 在 给 定 过 去 所 有 的 信 息 X 1 , X 2 , ⋯ , X n 时 , 只 有 最 近 的 信 息 X n 对 于 预 测 下 一 步 X n + 1 的 有 用 , 这 便 是 马 尔 科 夫 性 。 如 果 将 时 间 点 n 看 做 是 现 在 , n 之 前 的 时 间 点 是 过 去 , n 之 后 的 时 间 点 是 未 来 , 那 么 马 尔 科 夫 性 说 明 , 在 给 定 现 在 的 节 点 的 条 件 下 , 过 去 的 节 点 和 未 来 的 节 点 条 件 独 立 。 即 P ( X n − 1 ∩ X n + 1 ∣ X n ) = P ( X n − 1 ∣ X n ) P ( X n + 1 ∣ X n ) 。 另 外 关 于 P ( X n + 1 = j ∣ X n = i , X n − 1 = i n − 1 , ⋯ , X 0 = i 0 ) = P ( X n + 1 = j ∣ X n = i ) 的 理 解 , 感 觉 对 于 一 个 状 态 序 列 中 各 时 间 段 的 状 态 X i , 只 要 可 以 写 成 这 种 等 式 便 是 具 有 马 尔 科 夫 性 。 比 如 一 组 服 从 U i n f ( 0 , 1 ) 分 布 的 独 立 随 机 变 量 序 列 。 P ( X n + 1 = j ∣ X n = i , X n − 1 = i n − 1 , ⋯ , X 0 = i 0 ) = P ( X n + 1 ) , P ( X n + 1 = j ∣ X n = i ) = P ( X n + 1 ) , 所 以 P ( X n + 1 = j ∣ X n = i , X n − 1 = i n − 1 , ⋯ , X 0 = i 0 ) = P ( X n + 1 = j ∣ X n = i ) , 所 以 把 这 一 组 随 机 变 量 作 为 各 节 点 的 状 态 的 话 , 可 以 构 成 一 条 马 尔 科 夫 链 \textcolor{blue}{\textbf{马尔科夫性}}:\\上述定义中的条件就是马尔科夫性,P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\cdots,X_0={i_0})=P(X_{n+1}=j|X_n=i)\\说明在给定过去所有的信息X_1,X_2,\cdots,X_n时,只有最近的信息X_n对于预测下一步X_{n+1}的有用,这便是\\马尔科夫性。如果将时间点n看做是现在,n之前的时间点是过去,n之后的时间点是未来,那么马尔科夫性\\ 说明,在给定现在的节点的条件下,\textcolor{blue}{过去的节点和未来的节点条件独立}。\\即P(X_{n-1}\cap X_{n+1}|X_n)=P(X_{n-1}|X_n)P(X_{n+1}|X_n )。\\ 另外关于P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\cdots,X_0={i_0})=P(X_{n+1}=j|X_n=i)的理解,感觉对于一个状态\\序列中各时间段的状态X_i,只要可以写成这种等式便是具有马尔科夫性。比如一组服从Uinf(0,1)分布的独立\\随机变量 序列。P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\cdots,X_0={i_0})=P(X_{n+1}),P(X_{n+1}=j|X_n=i)=P(X_{n+1}),\\ 所以P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\cdots,X_0={i_0})=P(X_{n+1}=j|X_n=i),所以把这一组随机变量作为各节点\\的状态的话,可以构成一条马尔科夫链 马尔科夫性:上述定义中的条件就是马尔科夫性,P(Xn+1=j∣Xn=i,Xn−1=in−1,⋯,X0=i0)=P(Xn+1=j∣Xn=i)说明在给定过去所有的信息X1,X2,⋯,Xn时,只有最近的信息Xn对于预测下一步Xn+1的有用,这便是马尔科夫性。如果将时间点n看做是现在,n之前的时间点是过去,n之后的时间点是未来,那么马尔科夫性说明,在给定现在的节点的条件下,过去的节点和未来的节点条件独立。即P(Xn−1∩Xn+1∣Xn)=P(Xn−1∣Xn)P(Xn+1∣Xn)。另外关于P(Xn+1=j∣Xn=i,Xn−1=in−1,⋯,X0=i0)=P(Xn+1=j∣Xn=i)的理解,感觉对于一个状态序列中各时间段的状态Xi,只要可以写成这种等式便是具有马尔科夫性。比如一组服从Uinf(0,1)分布的独立随机变量序列。P(Xn+1=j∣Xn=i,Xn−1=in−1,⋯,X0=i0)=P(Xn+1),P(Xn+1=j∣Xn=i)=P(Xn+1),所以P(Xn+1=j∣Xn=i,Xn−1=in−1,⋯,X0=i0)=P(Xn+1=j∣Xn=i),所以把这一组随机变量作为各节点的状态的话,可以构成一条马尔科夫链
-
转移矩阵 : 令 X 1 , X 2 , ⋯ 是 在 状 态 空 间 { 1 , 2 , ⋯ , M } 上 的 一 个 马 尔 科 夫 链 , 令 q i j = P ( X n + 1 = j ∣ X n = i ) 作 为 从 状 态 i 转 移 到 状 态 j 的 转 移 概 率 , 那 么 得 到 的 这 个 M × M 矩 阵 Q = ( q i j ) 则 被 称 为 马 尔 科 夫 链 的 转 移 矩 阵 。 需 要 注 意 的 是 q i j 与 q j i 的 性 质 是 一 致 的 , 无 外 乎 一 个 是 从 当 前 状 态 i 转 移 下 一 个 节 点 状 态 j 的 转 移 概 率 , 另 一 个 是 从 当 前 状 态 j 转 移 到 下 一 个 节 点 状 态 i 的 转 移 概 率 , 都 是 从 当 前 状 态 转 移 到 下 一 个 节 点 状 态 的 转 移 概 率 , q j i 并 不 是 从 下 一 个 节 点 状 态 j 转 移 到 当 前 节 点 状 态 i 的 转 移 概 率 , 不 要 搞 混 了 \textcolor{blue}{\textbf{转移矩阵}}:令X_1,X_2,\cdots是在状态空间\{1,2,\cdots,M\}上的一个马尔科夫链,\\令q_{ij}=P(X_{n+1}=j|X_n=i)作为从状态i转移到状态j的转移概率,那么得到的这个M\times M矩阵\\Q=(q_{ij})则被称为马尔科夫链的转移矩阵。需要注意的是q_{ij}与q_{ji}的性质是一致的,无外乎一个是从\\当前状态i转移下一个节点状态j的转移概率,另一个是从当前状态j转移到下一个节点状态i的转移概率,\\都是从当前状态转移到下一个节点状态的转移概率,\textcolor{red}{q_{ji}并不是从下一个节点状态j转移到当前节点状态i\\的转移概率,不要搞混了} 转移矩阵:令X1,X2,⋯是在状态空间{1,2,⋯,M}上的一个马尔科夫链,令qij=P(Xn+1=j∣Xn=i)作为从状态i转移到状态j的转移概率,那么得到的这个M×M矩阵Q=(qij)则被称为马尔科夫链的转移矩阵。需要注意的是qij与qji的性质是一致的,无外乎一个是从当前状态i转移下一个节点状态j的转移概率,另一个是从当前状态j转移到下一个节点状态i的转移概率,都是从当前状态转移到下一个节点状态的转移概率,qji并不是从下一个节点状态j转移到当前节点状态i的转移概率,不要搞混了
-
转移概率的生成 : 首 先 要 明 确 P ( X n + 1 = 1 ∣ X n = i ) + P ( X n + 1 = 2 ∣ X n = i ) + ⋯ + P ( X n + 1 = M ∣ X n = i ) = 1 即 在 给 定 当 前 节 点 状 态 时 , 下 一 个 节 点 转 移 到 某 个 状 态 与 转 移 到 其 他 状 态 的 事 件 都 不 相 交 , 可 以 将 其 看 做 是 一 个 条 件 概 率 分 布 的 归 一 性 。 所 以 将 转 移 概 率 为 零 的 状 态 去 除 , 用 1 去 除 以 剩 余 的 转 移 状 态 数 便 是 P ( X n + 1 = j ∣ X n = i ) 的 值 , 所 以 也 就 是 说 在 X n 已 定 的 条 件 下 所 有 可 能 的 转 移 概 率 的 值 是 相 等 的 , 并 且 其 概 率 值 平 分 了 1 \textcolor{blue}{\textbf{转移概率的生成}}:首先要明确P(X_{n+1}=1|X_n=i)+P(X_{n+1}=2|X_n=i)+\cdots+P(X_{n+1}=M|X_n=i)=1\\ 即在给定当前节点状态时,下一个节点转移到某个状态与转移到其他状态的事件都不相交,\\可以将其看做是一个条件概率分布的归一性。所以将转移概率为零的状态去除,用1去除以剩余的转移状态数\\便是P(X_{n+1}=j|X_n=i)的值,所以也就是说在X_n已定的条件下所有可能的转移概率的值是相等的,\\并且其概率值平分了1 转移概率的生成:首先要明确P(Xn+1=1∣Xn=i)+P(Xn+1=2∣Xn=i)+⋯+P(Xn+1=M∣Xn=i)=1即在给定当前节点状态时,下一个节点转移到某个状态与转移到其他状态的事件都不相交,可以将其看做是一个条件概率分布的归一性。所以将转移概率为零的状态去除,用1去除以剩余的转移状态数便是P(Xn+1=j∣Xn=i)的值,所以也就是说在Xn已定的条件下所有可能的转移概率的值是相等的,并且其概率值平分了1
-
转移矩阵的形式 : 转 移 矩 阵 根 据 使 用 行 标 或 者 列 标 表 示 当 前 节 点 状 态 的 不 同 分 为 两 种 , 其 实 就 是 两 个 互 为 转 置 的 矩 阵 , 比 如 Q T = [ 0 1 0 0 0 0 1 2 1 2 1 3 2 3 0 0 0 0 1 0 ] 行 标 表 示 当 前 状 态 , 列 标 表 示 下 一 节 点 的 状 态 , q i 1 + q i 2 + q i 3 + q i 4 = 1 , Q = [ 0 0 1 3 0 1 0 2 3 0 0 1 2 0 1 0 1 2 0 0 ] 列 标 表 示 当 前 状 态 , 行 标 表 示 下 一 节 点 的 状 态 , q 1 j + q 2 j + q 3 j + q 4 j = 1 \textcolor{blue}{\textbf{转移矩阵的形式}}:转移矩阵根据使用行标或者列标表示当前节点状态的不同分为两种,其实就是两个互为转置的矩阵,比如\\Q^T=\begin{bmatrix}0&1&0&0\\0&0&\displaystyle \frac{1}{2}&\displaystyle \frac{1}{2}\\\displaystyle \frac{1}{3}&\displaystyle\frac{2}{3}&0&0\\0&0&1&0\end{bmatrix}行标表示当前状态,列标表示下一节点的状态,q_{i1}+q_{i2}+q_{i3}+q_{i4}=1, \\Q\quad=\begin{bmatrix}0&0&\displaystyle \frac{1}{3}&0\\1&0&\displaystyle \frac{2}{3}&0\\0&\displaystyle\frac{1}{2}&0&1\\0&\displaystyle \frac{1}{2}&0&0\end{bmatrix}列标表示当前状态,行标表示下一节点的状态,q_{1j}+q_{2j}+q_{3j}+q_{4j}=1 转移矩阵的形式:转移矩阵根据使用行标或者列标表示当前节点状态的不同分为两种,其实就是两个互为转置的矩阵,比如QT=⎣⎢⎢⎢⎢⎡00310103200210102100⎦⎥⎥⎥⎥⎤行标表示当前状态,列标表示下一节点的状态,qi1+qi2+qi3+qi4=1,Q=⎣⎢⎢⎢⎢⎢⎢⎢⎡01000021213132000010⎦⎥⎥⎥⎥⎥⎥⎥⎤列标表示当前状态,行标表示下一节点的状态,q1j+q2j+q3j+q4j=1
-
n 步 转 移 概 率 和 X n 边 缘 分 布 : 以 Q T 为 例 , 在 已 知 X 0 的 当 前 状 态 为 i 时 , 下 一 个 节 点 X 1 的 各 状 态 的 转 移 概 率 为 转 移 矩 阵 中 第 i 行 的 行 向 量 中 对 应 的 元 素 值 , 同 理 在 n 步 之 后 节 点 X n 的 各 状 态 的 转 移 概 率 为 ( Q T ) n 中 第 i 行 的 行 向 量 中 对 应 的 元 素 值 。 如 果 定 义 t = [ t 1 t 2 ⋮ t m ] 为 马 尔 科 夫 链 初 始 状 态 的 概 率 分 布 , 那 么 n 步 之 后 的 状 态 X n 的 边 缘 分 布 便 为 t T ( Q T ) n 或 者 Q n t , \textcolor{blue}{n步转移概率和X_n边缘分布}:\\以Q^T为例,在已知X_0的当前状态为i时,下一个节点X_1的各状态的转移概率为转移矩阵中第i行的行向量中\\对应的元素值,同理在n步之后节点X_n的各状态的转移概率为(Q^T)^n中第i行的行向量中对应的元素值。\\ 如果定义t=\begin{bmatrix}t_1\\t_2\\\vdots\\t_m\end{bmatrix}为马尔科夫链初始状态的概率分布,那么n步之后的状态X_n的边缘分布便为t^T(Q^T)^n\\或者Q^nt, n步转移概率和Xn边缘分布:以QT为例,在已知X0的当前状态为i时,下一个节点X1的各状态的转移概率为转移矩阵中第i行的行向量中对应的元素值,同理在n步之后节点Xn的各状态的转移概率为(QT)n中第i行的行向量中对应的元素值。如果定义t=⎣⎢⎢⎢⎡t1t2⋮tm⎦⎥⎥⎥⎤为马尔科夫链初始状态的概率分布,那么n步之后的状态Xn的边缘分布便为tT(QT)n或者Qnt,
2. 状态分类
1). 瞬时态和常返态
根据状态在马尔科夫链中长时间运行后会被重复访问还是会被抛弃,马尔科夫链的状态分为常返态和瞬时态。
- 瞬时态: 如果马尔科夫链中存在从状态 i i i出发再也无法回到 i i i的线路,则 i i i为瞬时态
- 常返态:与瞬时态相对,如果对于一个状态 i i i,马尔科夫链中不存在使得它无法回到自身状态的线路,那么 i i i就是常返态。换句话说从 i i i出发总会存在一条线路使得 i i i能够返回到自身状态
- 需要注意的:区分瞬时态和常返态的关键并不是看从一个状态 i i i出发,有没有可能回到 i i i;而是看从 i i i出发,有没有可能回不到 i i i。如果有就是瞬时态,没有就是常返态
- 经过瞬时态的次数服从几何分布,这很好理解,可以把状态出门转悠一圈看做一次试验。如果状态能够重新回到自身状态,则它就可以再次出发,而如果一旦状态进入了无法返回,试验也就要停止。于是可以把状态再次回到自身看作是一次失败的试验,而状态无法返回看做是成功的试验,很明显失败试验的次数服从几何分布
不可约马尔科夫链
- 从 可 视 化 的 马 尔 科 夫 链 图 来 看 , 不 可 约 的 马 尔 科 夫 链 是 从 任 意 一 个 状 态 出 发 按 着 箭 头 走 总 有 可 能 便 览 所 有 状 态 ( 包 括 自 身 ) 的 马 尔 科 夫 链 \textcolor{blue}{从可视化的马尔科夫链图来看},不可约的马尔科夫链是从任意一个状态出发按着箭头走总有可能便览 所有\\状态(包括自身)的马尔科夫链 从可视化的马尔科夫链图来看,不可约的马尔科夫链是从任意一个状态出发按着箭头走总有可能便览所有状态(包括自身)的马尔科夫链
- 从 转 移 矩 阵 来 看 , 设 转 移 矩 阵 为 Q , 对 于 任 何 状 态 i 和 状 态 j , 总 存 在 一 个 正 整 数 k , 使 得 Q k 中 的 q i j 项 是 正 的 。 注 意 这 里 说 的 q i j 项 是 正 的 指 的 是 只 要 在 某 一 Q k 矩 阵 中 的 ( i , j ) 位 置 上 的 值 出 现 过 正 数 即 可 , 而 不 是 说 必 须 在 同 一 时 间 同 一 个 Q k 矩 阵 中 所 有 位 置 上 的 q 值 全 为 正 。 比 如 说 转 移 矩 阵 。 Q = [ 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 ] , 无 论 k 为 任 何 正 整 数 , Q k 中 的 元 素 都 不 可 能 同 时 为 正 数 , 总 会 有 0 值 , 不 过 随 着 k 由 1 到 + ∞ 的 变 化 , Q k 中 的 各 位 置 都 出 现 过 1 值 , 所 以 该 矩 阵 对 应 的 马 尔 科 夫 链 为 不 可 约 的 \textcolor{blue}{从转移矩阵来看},设转移矩阵为Q,对于任何状态i和状态j,总存在一个正整数k,使得Q^k中的q_{ij}项是正的。\\ 注意这里说的\textcolor{blue}{q_{ij}项是正的}指的是只要在某一Q^k矩阵中的(i,j)位置上的值\textcolor{blue}{出现过正数}即可,\textcolor{red}{而不是}说必须在\\ 同一时间同一个Q^k矩阵中所有位置上的q值\textcolor{red}{全为正}。比如说转移矩阵。\\Q=\begin{bmatrix}0&1&0&0&0\\0&0&1&0&0\\0&0&0&1&0\\0&0&0&0&1\\1&0&0&0&0\end{bmatrix}, 无论k为任何正整数,Q^k中的元素都不可能同时为正数,总会有0值,\\ 不过随着k由1到+\infty的变化,Q^k中的各位置\textcolor{blue}{都出现过1值},所以该矩阵对应的马尔科夫链为不可约的 从转移矩阵来看,设转移矩阵为Q,对于任何状态i和状态j,总存在一个正整数k,使得Qk中的qij项是正的。注意这里说的qij项是正的指的是只要在某一Qk矩阵中的(i,j)位置上的值出现过正数即可,而不是说必须在同一时间同一个Qk矩阵中所有位置上的q值全为正。比如说转移矩阵。Q=⎣⎢⎢⎢⎢⎡0000110000010000010000010⎦⎥⎥⎥⎥⎤,无论k为任何正整数,Qk中的元素都不可能同时为正数,总会有0值,不过随着k由1到+∞的变化,Qk中的各位置都出现过1值,所以该矩阵对应的马尔科夫链为不可约的
- 与 常 返 态 的 关 系 , 在 一 个 有 限 状 态 空 间 中 的 不 可 约 马 尔 科 夫 链 中 , 所 有 状 态 都 是 常 返 态 ; 但 是 一 个 所 有 状 态 都 是 常 返 态 的 马 尔 科 夫 链 不 一 定 是 不 可 约 的 。 也 就 是 { 不 可 约 马 尔 科 夫 链 ⇒ 链 中 状 态 一 定 皆 为 常 返 态 链 中 皆 为 常 返 态 ⇒ 链 的 类 别 不 一 定 是 不 可 约 马 尔 科 夫 链 比 如 两 个 不 相 连 的 周 期 链 \textcolor{blue}{与常返态的关系},在一个有限状态空间中的不可约马尔科夫链中,所有状态都是常返态;但是一个所有状态\\ 都是常返态的马尔科夫链不一定是不可约的。也就是\\ \begin{cases} 不可约马尔科夫链&{\textcolor{blue}{\xRightarrow{链中状态}}}&一定皆为常返态&\\ 链中皆为常返态&{\textcolor{red}{\xRightarrow{链的类别}}}&不一定是不可约马尔科夫链&比如两个不相连的周期链\end{cases} 与常返态的关系,在一个有限状态空间中的不可约马尔科夫链中,所有状态都是常返态;但是一个所有状态都是常返态的马尔科夫链不一定是不可约的。也就是{不可约马尔科夫链链中皆为常返态链中状态链的类别一定皆为常返态不一定是不可约马尔科夫链比如两个不相连的周期链
可约马尔科夫链
简单来说不可约马尔科夫链以外的所有其它马尔科夫链都是可约的
- 从 可 视 化 的 马 尔 科 夫 链 图 来 看 , 可 约 的 马 尔 科 夫 链 是 从 任 意 一 个 状 态 出 发 , 无 论 怎 么 按 着 箭 头 走 总 会 有 至 少 一 个 状 态 ( 包 括 自 身 ) 无 法 到 达 \textcolor{blue}{从可视化的马尔科夫链图来看},可约的马尔科夫链是从任意一个状态出发,无论怎么按着箭头走总会有至少\\一个状态(包括自身)无法到达 从可视化的马尔科夫链图来看,可约的马尔科夫链是从任意一个状态出发,无论怎么按着箭头走总会有至少一个状态(包括自身)无法到达
- 从 转 移 矩 阵 来 看 , 设 转 移 矩 阵 为 Q , 无 论 k 为 任 何 正 整 数 值 , Q k 中 至 少 有 一 个 位 置 上 的 值 始 终 为 0 \textcolor{blue}{从转移矩阵来看},设转移矩阵为Q,无论k为任何正整数值,Q^k中至少有一个位置上的值始终为0 从转移矩阵来看,设转移矩阵为Q,无论k为任何正整数值,Qk中至少有一个位置上的值始终为0
- 与 状 态 的 关 系 , { 链 中 存 在 瞬 时 态 ⇒ 链 的 类 别 一 定 为 可 约 马 尔 科 夫 链 可 约 马 尔 科 夫 链 ⇒ 链 中 状 态 可 能 为 瞬 时 态 , 常 返 态 的 所 有 组 合 \textcolor{blue}{与状态的关系}, \begin{cases}链中存在瞬时态&{\textcolor{blue}{\xRightarrow{链的类别}}}&一定为可约马尔科夫链\quad \\可约马尔科夫链 &{\textcolor{red}{\xRightarrow{链中状态}}}&可能为瞬时态,常返态的所有组合\end{cases} 与状态的关系,{链中存在瞬时态可约马尔科夫链链的类别链中状态一定为可约马尔科夫链可能为瞬时态,常返态的所有组合
2). 周期性马尔科夫链和非周期性马尔科夫链
-
周 期 的 定 义 : 状 态 i 的 周 期 是 所 有 可 能 的 从 状 态 i 返 回 到 状 态 i 所 需 要 步 数 的 最 大 公 约 数 , 也 就 是 说 状 态 i 的 周 期 是 使 得 Q n 的 ( i , i ) 项 为 正 的 , n 的 最 大 公 约 数 \textcolor{blue}{周期的定义}:状态i的周期是所有可能的从状态i返回到状态i所需要步数的最大公约数,也就是说状态i的周期是\\使得Q^n的(i,i)项为正的,n的最大公约数 周期的定义:状态i的周期是所有可能的从状态i返回到状态i所需要步数的最大公约数,也就是说状态i的周期是使得Qn的(i,i)项为正的,n的最大公约数
-
非 周 期 性 与 周 期 性 状 态 : 如 果 一 个 状 态 的 周 期 为 1 则 称 其 为 非 周 期 性 的 , 否 则 则 称 其 为 周 期 性 的 \textcolor{blue}{非周期性与周期性状态}:如果一个状态的周期为1则称其为非周期性的,否则则称其为周期性的 非周期性与周期性状态:如果一个状态的周期为1则称其为非周期性的,否则则称其为周期性的
-
周 期 性 的 理 解 : 想 象 一 个 由 五 个 珠 子 依 次 首 尾 相 连 串 成 的 手 链 , 如 果 规 定 从 其 中 一 个 珠 子 出 发 只 能 朝 着 一 个 方 向 前 进 的 话 那 么 这 个 珠 子 必 须 经 历 五 步 才 能 回 到 原 位 置 , 所 有 珠 子 是 一 致 的 , 如 果 把 每 个 珠 子 看 做 一 个 状 态 , 那 这 就 是 一 个 周 期 链 , 因 为 最 大 公 约 数 为 5 不 为 1 。 \textcolor{blue}{周期性的理解}:想象一个由五个珠子依次首尾相连串成的手链,如果规定从其中一个珠子出发只能朝着一个方向\\ 前进的话那么这个珠子必须经历五步才能回到原位置,所有珠子是一致的,如果把每个珠子看做一个状态,\\ 那这就是一个周期链,因为最大公约数为5不为1。 周期性的理解:想象一个由五个珠子依次首尾相连串成的手链,如果规定从其中一个珠子出发只能朝着一个方向前进的话那么这个珠子必须经历五步才能回到原位置,所有珠子是一致的,如果把每个珠子看做一个状态,那这就是一个周期链,因为最大公约数为5不为1。
-
非 周 期 性 的 理 解 : 还 是 那 五 颗 珠 子 , 如 果 现 在 假 设 第 三 颗 珠 子 有 概 率 从 自 己 出 发 下 一 步 立 即 返 回 自 己 , 那 么 它 从 自 身 返 回 自 身 的 步 数 就 可 以 是 从 1 或 5 , 而 其 他 珠 子 返 回 自 身 额 步 数 就 有 可 能 是 5 ∼ + ∞ , 因 为 在 经 过 第 三 颗 珠 子 的 时 候 是 不 知 道 它 要 在 自 身 循 环 多 少 次 , 所 消 耗 的 步 数 也 就 可 以 因 为 在 该 处 的 循 环 而 无 节 制 的 增 长 , 而 从 5 到 + ∞ 的 公 约 数 只 有 1 \textcolor{blue}{非周期性的理解}:\\还是那五颗珠子,如果现在假设第三颗珠子有概率从自己出发下一步立即返回自己,那么它从自身返回自身的步数\\ 就可以是从1或5,而其他珠子返回自身额步数就有可能是5\thicksim+\infty,因为在经过第三颗珠子的时候是不知道它要\\在自身循环多少次,所消耗的步数也就可以因为在该处的循环而无节制的增长,而从5到+\infty的公约数只有1 非周期性的理解:还是那五颗珠子,如果现在假设第三颗珠子有概率从自己出发下一步立即返回自己,那么它从自身返回自身的步数就可以是从1或5,而其他珠子返回自身额步数就有可能是5∼+∞,因为在经过第三颗珠子的时候是不知道它要在自身循环多少次,所消耗的步数也就可以因为在该处的循环而无节制的增长,而从5到+∞的公约数只有1
-
非 周 期 性 与 周 期 性 马 尔 科 夫 链 : 如 果 马 尔 科 夫 链 中 的 所 有 状 态 都 是 非 周 期 性 的 , 则 该 链 条 是 非 周 期 的 , 否 则 就 是 周 期 性 的 。 也 就 是 说 但 凡 只 要 有 一 个 状 态 的 周 期 不 为 1 那 整 个 链 条 就 是 周 期 的 \textcolor{blue}{非周期性与周期性马尔科夫链}:如果马尔科夫链中的所有状态都是非周期性的,则该链条是非周期的,\\否则就是周期性的。也就是说但凡只要有一个状态的周期不为1那整个链条就是周期的 非周期性与周期性马尔科夫链:如果马尔科夫链中的所有状态都是非周期性的,则该链条是非周期的,否则就是周期性的。也就是说但凡只要有一个状态的周期不为1那整个链条就是周期的
3. 平稳分布以及存在性和唯一性
1). 平稳分布
- 一 个 列 向 量 s = [ s 1 ⋮ s M ] , 其 中 s i ≥ 0 并 且 ∑ i s i = 1 。 若 有 一 个 转 移 矩 阵 为 Q T 的 马 尔 科 夫 链 , 且 s T Q T = s T 或 Q s = s , 那 么 就 称 s 为 稳 态 向 量 , s 内 部 元 素 所 形 成 的 分 布 为 平 稳 分 布 一个列向量s=\begin{bmatrix}s_1\\\vdots\\s_M\end{bmatrix},其中s_i\geq0并且\displaystyle \sum_i s_i=1。若有一个转移矩阵为Q^T的马尔科夫链,且s^TQ^T=s^T\\或Qs=s,那么就称s为稳态向量,s内部元素所形成的分布为平稳分布 一个列向量s=⎣⎢⎡s1⋮sM⎦⎥⎤,其中si≥0并且i∑si=1。若有一个转移矩阵为QT的马尔科夫链,且sTQT=sT或Qs=s,那么就称s为稳态向量,s内部元素所形成的分布为平稳分布
- 平 稳 分 布 是 边 缘 分 布 , 最 直 观 的 解 释 就 是 当 前 状 态 的 分 布 s 经 过 一 步 转 移 后 得 到 的 状 态 的 边 缘 分 布 依 然 是 s 平稳分布是边缘分布,最直观的解释就是当前状态的分布s经过一步转移后得到的状态的边缘分布依然是s 平稳分布是边缘分布,最直观的解释就是当前状态的分布s经过一步转移后得到的状态的边缘分布依然是s
- 从 Q s = s 中 不 难 看 出 , 其 实 稳 态 向 量 s 是 转 移 矩 阵 Q 中 的 特 征 值 λ = 1 时 所 对 应 的 的 特 征 向 量 进 行 归 一 化 后 的 结 果 即 若 该 特 征 向 量 为 x , 则 s = x ∑ i x i 从Qs=s中不难看出,其实稳态向量s是转移矩阵Q中的特征值\lambda=1时所对应的的特征向量进行归一化后的结果\\ 即若该特征向量为x,则\displaystyle s=\frac{x}{\displaystyle\sum_i x_i} 从Qs=s中不难看出,其实稳态向量s是转移矩阵Q中的特征值λ=1时所对应的的特征向量进行归一化后的结果即若该特征向量为x,则s=i∑xix
2). 存在性和唯一性
- 在一个有限状态的空间上,平稳分布总是存在的。而根据佩龙定理,任何不可约的马尔科夫链都有一个唯一的平稳分布。在这个分布中,每个状态都有正的概率
- 从唯一性上可以得知,会存在存在一个以上的平稳分布的马尔科夫链,比如说赌徒破产的问题,假设金额有限,那么如果一直持续赌下去,结果只会有两种,一种是输光所有的钱,一种是赢得所有的钱,在达到其中一种状态后,该链条便会在此状态下一直循环重复,那这两种状态所表现出来的就是两种平稳分布,而链条只会到达其中一种。
3). 收敛性
- 收 敛 性 适 用 于 不 可 约 非 周 期 马 尔 科 夫 链 , 说 白 了 就 是 对 于 任 意 初 始 状 态 分 布 t , 在 长 时 间 运 行 链 条 之 后 , t 都 会 收 敛 于 平 稳 分 布 s , 用 矩 阵 公 式 说 明 的 话 就 是 设 n 为 链 条 运 行 步 数 , Q 为 转 移 矩 阵 于 是 l i m n → ∞ Q n t = s 收敛性适用于不可约非周期马尔科夫链,说白了就是对于任意初始状态分布t,在长时间运行链条之后,\\ t都会收敛于平稳分布s,用矩阵公式说明的话就是设n为链条运行步数,Q为转移矩阵于是\underset{n\to\infty}{lim} Q^nt=s 收敛性适用于不可约非周期马尔科夫链,说白了就是对于任意初始状态分布t,在长时间运行链条之后,t都会收敛于平稳分布s,用矩阵公式说明的话就是设n为链条运行步数,Q为转移矩阵于是n→∞limQnt=s
- 要 注 意 的 是 存 在 唯 一 的 平 稳 分 布 不 等 于 链 条 会 收 敛 到 该 平 稳 分 布 , 比 如 之 前 所 说 的 周 期 马 尔 科 夫 链 Q = [ 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 ] , 如 果 初 始 状 态 分 布 为 平 稳 分 布 , 即 t = s = ( 1 5 , 1 5 , 1 5 , 1 5 , 1 5 ) T , 那 么 Q n t = s 但 是 如 果 初 始 状 态 分 布 为 任 意 分 布 比 如 t = ( 1 , 0 , 0 , 0 , 0 ) T , 那 么 Q n t 永 远 不 会 收 敛 于 s 。 考 虑 到 周 期 马 尔 科 夫 链 的 特 殊 性 , 于 是 在 定 义 收 敛 性 时 要 去 除 周 期 链 要注意的是存在唯一的平稳分布不等于链条会收敛到该平稳分布,比如之前所说的周期马尔科夫链\\Q=\begin{bmatrix}0&1&0&0&0\\0&0&1&0&0\\0&0&0&1&0\\0&0&0&0&1\\1&0&0&0&0\end{bmatrix},如果初始状态分布为平稳分布,即t=s=(\displaystyle \frac{1}{5},\frac{1}{5},\frac{1}{5},\frac{1}{5},\frac{1}{5})^T,那么Q^nt=s\\ 但是如果初始状态分布为任意分布比如t=(\displaystyle1,0,0,0,0)^T,那么Q^nt永远不会收敛于s。\\ 考虑到周期马尔科夫链的特殊性,于是在定义收敛性时要去除周期链 要注意的是存在唯一的平稳分布不等于链条会收敛到该平稳分布,比如之前所说的周期马尔科夫链Q=⎣⎢⎢⎢⎢⎡0000110000010000010000010⎦⎥⎥⎥⎥⎤,如果初始状态分布为平稳分布,即t=s=(51,51,51,51,51)T,那么Qnt=s但是如果初始状态分布为任意分布比如t=(1,0,0,0,0)T,那么Qnt永远不会收敛于s。考虑到周期马尔科夫链的特殊性,于是在定义收敛性时要去除周期链
- 对 于 一 条 马 尔 科 夫 链 { 具 有 收 敛 性 ⇒ 拥 有 唯 一 的 平 稳 分 布 因 为 是 不 可 约 非 周 期 链 拥 有 平 稳 分 布 ⇏ 具 有 收 敛 性 比 如 周 期 性 链 对于一条马尔科夫链\begin{cases} 具有收敛性&{\Large\textcolor{blue}{\Rightarrow}}拥有唯一的平稳分布\quad 因为是不可约非周期链\\ 拥有平稳分布&{\Large\textcolor{red}{\nRightarrow}}具有收敛性\quad\quad\quad\quad\quad 比如周期性链 \end{cases} 对于一条马尔科夫链{具有收敛性拥有平稳分布⇒拥有唯一的平稳分布因为是不可约非周期链⇏具有收敛性比如周期性链
4. 可逆性
1). 定义和性质
- 可 逆 性 : 令 Q = ( q i j ) 是 一 个 马 尔 科 夫 链 的 转 移 矩 阵 , 假 定 有 一 个 序 列 s = ( s 1 , ⋯ , s M ) , 其 中 s i ≥ 0 , ∑ i s i = 1 使 得 s i q i j = s j q j i 对 于 所 有 i 和 j 都 成 立 , 则 这 个 方 程 被 称 为 可 逆 性 条 件 或 者 详 细 的 平 衡 条 件 , 并 称 链 相 对 于 s 可 逆 可逆性:令Q=(q_{ij})是一个马尔科夫链的转移矩阵,假定有一个序列s=(s_1,\cdots,s_M),其中s_i\geq 0,\displaystyle \sum_i s_i =1\\使得s_iq_{ij}=s_jq_{ji}对于所有i和j都成立,则这个方程被称为可逆性条件或者详细的平衡条件,并称链相对于s可逆 可逆性:令Q=(qij)是一个马尔科夫链的转移矩阵,假定有一个序列s=(s1,⋯,sM),其中si≥0,i∑si=1使得siqij=sjqji对于所有i和j都成立,则这个方程被称为可逆性条件或者详细的平衡条件,并称链相对于s可逆
- 可 逆 性 意 味 着 平 稳 性 : 根 据 可 逆 性 ∑ i s i q i j = ∑ i s j q j i = s j ∑ i q j i = s j , 很 显 然 s 具 有 平 稳 性 , 如 果 s 为 非 负 向 量 并 且 元 素 和 为 1 , 那 么 s 就 是 这 个 链 条 的 平 稳 分 布 可逆性意味着平稳性: 根据可逆性\displaystyle \sum_is_iq_{ij}=\sum_is_jq_{ji}=s_j\sum_iq_{ji}=s_j,很显然s具有平稳性,如果s为非负向量\\并且元素和为1,那么s就是这个链条的平稳分布 可逆性意味着平稳性:根据可逆性i∑siqij=i∑sjqji=sji∑qji=sj,很显然s具有平稳性,如果s为非负向量并且元素和为1,那么s就是这个链条的平稳分布
- 可 逆 性 的 作 用 : 由 于 具 有 可 逆 性 的 分 布 s 可 以 被 证 明 为 是 平 稳 分 布 , 那 么 便 可 以 利 用 可 逆 性 s i q i j = s j q j i 去 求 取 这 个 平 稳 分 布 , 有 时 一 些 特 殊 的 巨 大 转 移 矩 阵 通 过 求 取 特 征 向 量 来 得 到 稳 态 向 量 的 方 法 是 比 较 麻 烦 的 , 这 时 使 用 可 逆 性 条 件 求 取 会 比 较 方 便 的 可逆性的作用:由于具有可逆性的分布s可以被证明为是平稳分布,那么便可以利用可逆性s_iq_{ij}=s_jq_{ji}去求取\\ 这个平稳分布,有时一些特殊的巨大转移矩阵通过求取特征向量来得到稳态向量的方法是比较麻烦的,\\这时使用可逆性条件求取会比较方便的 可逆性的作用:由于具有可逆性的分布s可以被证明为是平稳分布,那么便可以利用可逆性siqij=sjqji去求取这个平稳分布,有时一些特殊的巨大转移矩阵通过求取特征向量来得到稳态向量的方法是比较麻烦的,这时使用可逆性条件求取会比较方便的
- 需 要 注 意 的 是 , 如 果 能 够 证 明 一 条 马 尔 科 夫 链 相 对 于 一 条 状 态 分 布 向 量 s 可 逆 , 那 么 所 能 够 得 到 的 结 论 , 该 状 态 分 布 向 量 是 马 尔 科 夫 链 的 一 条 稳 态 向 量 无 法 得 到 的 结 论 , 该 链 是 否 拥 唯 一 的 平 稳 分 布 , 该 链 是 否 具 有 收 敛 性 也 就 是 说 除 了 该 向 量 的 平 稳 性 之 外 其 余 任 何 性 质 都 无 法 证 明 需要注意的是,如果能够证明一条马尔科夫链相对于一条状态分布向量s可逆,那么\\ \textcolor{blue}{所能够得到的结论},该状态分布向量是马尔科夫链的一条稳态向量\\ \textcolor{red}{无法得到的结论},该链是否拥唯一的平稳分布,该链是否具有收敛性\\ 也就是说除了该向量的平稳性之外其余任何性质都无法证明 需要注意的是,如果能够证明一条马尔科夫链相对于一条状态分布向量s可逆,那么所能够得到的结论,该状态分布向量是马尔科夫链的一条稳态向量无法得到的结论,该链是否拥唯一的平稳分布,该链是否具有收敛性也就是说除了该向量的平稳性之外其余任何性质都无法证明
2). 双随机矩阵
双 随 机 矩 阵 是 一 个 对 称 的 转 移 矩 阵 , 显 然 q i j = q j i , 于 是 ∑ j q i j = ∑ j q j i = 1 , 也 就 是 说 每 一 行 的 元 素 和 与 每 一 列 的 元 素 和 都 为 1 。 既 然 q i j = q j i 那 么 若 想 s i q i j = s j q j i , 则 必 有 s i = s j , 这 也 就 是 说 稳 态 向 量 是 一 个 内 部 元 素 全 都 相 等 的 向 量 , 如 果 状 态 空 间 的 大 小 为 M , 那 么 稳 态 向 量 s = ( 1 M , 1 M , ⋯ , 1 M ) 双随机矩阵是一个对称的转移矩阵,显然q_{ij}=q_{ji},于是\displaystyle \sum_jq_{ij}=\sum_jq_{ji}=1,也就是说每一行的元素和与每一列\\的元素和都为1。既然q_{ij}=q_{ji}那么若想s_iq_{ij}=s_jq_{ji},则必有s_i=s_j,这也就是说稳态向量是一个内部元素全都\\相等的向量,如果状态空间的大小为M,那么稳态向量s=(\frac{1}{M},\frac{1}{M},\cdots,\frac{1}{M}) 双随机矩阵是一个对称的转移矩阵,显然qij=qji,于是j∑qij=j∑qji=1,也就是说每一行的元素和与每一列的元素和都为1。既然qij=qji那么若想siqij=sjqji,则必有si=sj,这也就是说稳态向量是一个内部元素全都相等的向量,如果状态空间的大小为M,那么稳态向量s=(M1,M1,⋯,M1)
3). 无向网络上的随机游走
有
上
图
这
样
一
个
马
尔
科
夫
链
,
从
一
个
状
态
可
以
前
往
任
何
一
个
与
之
相
连
的
状
态
,
而
它
前
往
相
邻
状
态
的
概
率
由
道
路
上
的
权
重
给
出
,
比
如
状
态
1
到
状
态
3
的
权
重
w
13
=
3
,
到
状
态
二
的
权
重
为
w
12
=
7
,
而
某
一
状
态
去
往
其
他
状
态
的
权
重
总
和
为
v
i
=
∑
j
w
i
j
,
比
如
状
态
1
到
状
态
3
和
状
态
2
的
权
重
和
为
v
1
=
w
13
+
w
12
=
3
+
7
=
10
,
那
么
从
一
个
状
态
去
往
其
他
状
态
的
概
率
即
为
q
i
j
=
w
i
j
v
i
,
比
如
从
状
态
一
去
往
状
态
三
的
概
率
q
13
=
w
13
v
1
=
3
10
,
去
往
状
态
二
的
概
率
为
q
12
=
w
12
v
1
=
7
10
。
又
由
于
道
路
i
j
和
道
路
j
i
是
相
同
的
,
所
以
设
权
重
w
i
j
=
w
j
i
。
于
是
在
这
种
网
络
的
马
尔
科
夫
链
中
会
存
在
v
i
q
i
j
=
v
j
q
j
i
形
式
的
可
逆
性
条
件
。
如
果
设
Z
=
∑
i
v
i
,
那
么
可
以
求
出
该
马
尔
科
夫
链
的
稳
态
向
量
s
=
(
v
1
Z
,
v
2
Z
,
v
3
Z
,
v
4
Z
,
v
5
Z
)
有上图这样一个马尔科夫链,从一个状态可以前往任何一个与之相连的状态,而它前往相邻状态的概率由道路上的\\ 权重给出,比如状态1到状态3的权重w_{13}=3,到状态二的权重为w_{12}=7,而某一状态去往其他状态的权重总和为\\\displaystyle v_i=\sum_jw_{ij},比如状态1到状态3和状态2的权重和为v_1=w_{13}+w_{12}=3+7=10,那么从一个状态去往其他状态\\的概率即为q_{ij}=\frac{w_{ij}}{v_i},比如从状态一去往状态三的概率\displaystyle q_{13}=\frac{w_{13}}{v_1}=\frac{3}{10},去往状态二的概率为q_{12}=\frac{w_{12}}{v_1}=\frac{7}{10}。\\ 又由于道路ij和道路ji是相同的,所以设权重w_{ij}=w_{ji}。于是在这种网络的马尔科夫链中会存在v_iq_{ij}=v_jq_{ji}\\形式的 可逆性条件。如果设\displaystyle Z=\sum_iv_i,那么可以求出该马尔科夫链的稳态向量s=(\frac{v_1}{Z},\frac{v_2}{Z},\frac{v_3}{Z},\frac{v_4}{Z},\frac{v_5}{Z})
有上图这样一个马尔科夫链,从一个状态可以前往任何一个与之相连的状态,而它前往相邻状态的概率由道路上的权重给出,比如状态1到状态3的权重w13=3,到状态二的权重为w12=7,而某一状态去往其他状态的权重总和为vi=j∑wij,比如状态1到状态3和状态2的权重和为v1=w13+w12=3+7=10,那么从一个状态去往其他状态的概率即为qij=viwij,比如从状态一去往状态三的概率q13=v1w13=103,去往状态二的概率为q12=v1w12=107。又由于道路ij和道路ji是相同的,所以设权重wij=wji。于是在这种网络的马尔科夫链中会存在viqij=vjqji形式的可逆性条件。如果设Z=i∑vi,那么可以求出该马尔科夫链的稳态向量s=(Zv1,Zv2,Zv3,Zv4,Zv5)
4). 埃伦菲斯特链
假 设 有 两 个 容 器 , 容 器 一 为 空 的 , 容 器 二 中 有 M 个 粒 子 , 现 在 随 机 选 择 一 个 粒 子 , 被 选 中 的 粒 子 将 被 移 动 到 另 外 一 个 容 器 中 , 也 就 是 说 如 果 选 中 的 粒 子 在 容 器 一 中 , 那 它 将 被 移 动 到 容 器 二 中 , 反 之 则 被 移 动 到 容 器 一 中 , 则 以 容 器 一 中 的 粒 子 数 量 为 状 态 的 状 态 空 间 为 { 0 , 1 , 2 , ⋯ , M } , 很 明 显 前 后 两 个 节 点 上 状 态 的 变 化 符 合 一 个 马 尔 科 夫 链 的 特 征 假设有两个容器,容器一为空的,容器二中有M个粒子,现在随机选择一个粒子,被选中的粒子将被移动到另外\\ 一个容器中,也就是说如果选中的粒子在容器一中,那它将被移动到容器二中,反之则被移动到容器一中,则以\\ 容器一中的粒子数量为状态的状态空间为\{0,1,2,\cdots,M\},很明显前后两个节点上状态的变化符合一个马尔科夫链\\的特征 假设有两个容器,容器一为空的,容器二中有M个粒子,现在随机选择一个粒子,被选中的粒子将被移动到另外一个容器中,也就是说如果选中的粒子在容器一中,那它将被移动到容器二中,反之则被移动到容器一中,则以容器一中的粒子数量为状态的状态空间为{0,1,2,⋯,M},很明显前后两个节点上状态的变化符合一个马尔科夫链的特征
埃
伦
菲
斯
特
链
是
一
个
特
殊
的
出
生
死
亡
链
,
链
中
每
一
步
状
态
返
回
自
我
的
概
率
为
0
,
即
q
i
i
=
0
。
状
态
空
间
大
小
为
M
的
话
,
稳
态
向
量
的
元
素
随
着
i
由
0
到
M
而
变
化
,
s
i
=
(
M
i
)
(
1
2
)
M
,
以
M
=
10
为
例
的
马
尔
科
夫
链
的
转
移
矩
阵
如
下
埃伦菲斯特链是一个特殊的出生死亡链,链中每一步状态返回自我的概率为0,即q_{ii}=0。状态空间大小为M的话,\\ 稳态向量的元素随着i由0到M而变化,\displaystyle s_i={M \choose i}(\frac{1}{2})^M,以M=10为例的马尔科夫链的转移矩阵如下
埃伦菲斯特链是一个特殊的出生死亡链,链中每一步状态返回自我的概率为0,即qii=0。状态空间大小为M的话,稳态向量的元素随着i由0到M而变化,si=(iM)(21)M,以M=10为例的马尔科夫链的转移矩阵如下
[
0
0.1
0
0
0
0
0
0
0
0
0
1
0
0.2
0
0
0
0
0
0
0
0
0
0.9
0
0.3
0
0
0
0
0
0
0
0
0
0.8
0
0.4
0
0
0
0
0
0
0
0
0
0.7
0
0.5
0
0
0
0
0
0
0
0
0
0.6
0
0.6
0
0
0
0
0
0
0
0
0
0.5
0
0.7
0
0
0
0
0
0
0
0
0
0.4
0
0.8
0
0
0
0
0
0
0
0
0
0.3
0
0.9
0
0
0
0
0
0
0
0
0
0.2
0
1.0
0
0
0
0
0
0
0
0
0
0.1
0
]
⇒
稳
态
向
量
[
0.0010
0.0098
0.0439
0.1172
0.2051
0.2461
0.2051
0.1172
0.0439
0.0098
0.0010
]
由
s
i
=
(
M
i
)
(
1
2
)
M
,
可
知
当
i
=
M
2
时
s
i
取
最
大
值
,
将
M
=
10
,
i
=
5
代
入
计
算
可
得
s
5
=
(
10
5
)
(
1
2
)
10
=
0.2461
正
是
稳
态
向
量
中
元
素
的
最
大
值
\begin{bmatrix} 0&\color{blue}0.1&0&0&0&0&0&0&0&0&0\\ \color{blue}1&0&\color{blue}0.2&0&0&0&0&0&0&0&0\\ 0&\color{blue}0.9&0&\color{blue}0.3&0&0&0&0&0&0&0\\ 0&0&\color{blue}0.8&0&\color{blue}0.4&0&0&0&0&0&0\\ 0&0&0&\color{blue}0.7&0&\color{blue}0.5&0&0&0&0&0\\ 0&0&0&0&\color{blue}0.6&0&\color{blue}0.6&0&0&0&0\\ 0&0&0&0&0&\color{blue}0.5&0&\color{blue}0.7&0&0&0\\ 0&0&0&0&0&0&\color{blue}0.4&0&\color{blue}0.8&0&0\\ 0&0&0&0&0&0&0&\color{blue}0.3&0&\color{blue}0.9&0\\ 0&0&0&0&0&0&0&0&\color{blue}0.2&0&\color{blue}1.0\\ 0&0&0&0&0&0&0&0&0&\color{blue}0.1&0\\ \end{bmatrix}\xRightarrow{稳态向量} \begin{bmatrix} 0.0010\\ 0.0098\\ 0.0439\\ 0.1172\\ 0.2051\\ \color{blue}0.2461\\ 0.2051\\ 0.1172\\ 0.0439\\ 0.0098\\ 0.0010 \end{bmatrix}\\ \begin{aligned} &由s_i={M \choose i}(\frac{1}{2})^M,可知当i=\frac{M}{2}时s_i取最大值,将M=10,i=5代入计算可得s_5={10 \choose 5}(\frac{1}{2})^{10}=0.2461 \\&正是稳态向量中元素的最大值 \end{aligned}
⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡010000000000.100.90000000000.200.80000000000.300.70000000000.400.60000000000.500.50000000000.600.40000000000.700.30000000000.800.20000000000.900.10000000001.00⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤稳态向量⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡0.00100.00980.04390.11720.20510.24610.20510.11720.04390.00980.0010⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤由si=(iM)(21)M,可知当i=2M时si取最大值,将M=10,i=5代入计算可得s5=(510)(21)10=0.2461正是稳态向量中元素的最大值
5. 稳态向量的基变换解释
当 一 个 状 态 空 间 大 小 为 n 的 马 尔 科 夫 链 的 转 移 矩 阵 为 Q , 而 s 为 稳 态 向 量 时 , 显 然 s = Q s , 那 么 如 果 以 线 性 代 数 中 基 变 换 的 角 度 去 看 的 话 , 如 果 设 经 Q 转 移 前 的 空 间 基 向 量 序 列 为 { q ( : , 1 ) , q ( : , 2 ) , ⋯ , q ( : , n ) } , 转 移 后 的 空 间 为 向 量 空 间 R n 中 的 标 准 空 间 E , 基 向 量 序 列 为 { e 1 , e 2 , ⋯ , e n } 。 则 s = Q s 可 写 为 s e = Q s q 。 其 中 s q 是 在 空 间 Q 中 的 向 量 的 坐 标 , 而 s e 是 向 量 s q 转 移 到 空 间 E 中 的 向 量 , 而 s e = s q 。 于 是 从 基 变 换 的 角 度 去 看 , 一 个 马 尔 科 夫 链 的 稳 态 向 量 是 一 个 空 间 基 向 量 从 { q ( : , 1 ) , q ( : , 2 ) , ⋯ , q ( : , n ) } 变 化 到 { e 1 , e 2 , ⋯ , e n } 时 , 坐 标 不 发 生 变 化 的 向 量 当一个状态空间大小为n的马尔科夫链的转移矩阵为Q,而s为稳态向量时,显然s=Qs,\\ 那么如果以线性代数中基变换的角度去看的话,如果设经Q转移前的空间基向量序列为\{q_{(:,1)},q_{(:,2)},\cdots,q_{(:,n)}\},\\ 转移后的空间为向量空间R^n中的标准空间E,基向量序列为\{e_1,e_2,\cdots,e_n\}。则s=Qs可写为s_e=Qs_q。其中s_q\\ 是在空间Q中的向量的坐标,而s_e是向量s_q转移到空间E中的向量,而s_e=s_q。于是从基变换的角度去看, 一个\\马尔科夫链的稳态向量是一个空间基向量从\{q_{(:,1)},q_{(:,2)},\cdots,q_{(:,n)}\}变化到\{e_1,e_2,\cdots,e_n\}时,坐标不发生变化的向量 当一个状态空间大小为n的马尔科夫链的转移矩阵为Q,而s为稳态向量时,显然s=Qs,那么如果以线性代数中基变换的角度去看的话,如果设经Q转移前的空间基向量序列为{q(:,1),q(:,2),⋯,q(:,n)},转移后的空间为向量空间Rn中的标准空间E,基向量序列为{e1,e2,⋯,en}。则s=Qs可写为se=Qsq。其中sq是在空间Q中的向量的坐标,而se是向量sq转移到空间E中的向量,而se=sq。于是从基变换的角度去看,一个马尔科夫链的稳态向量是一个空间基向量从{q(:,1),q(:,2),⋯,q(:,n)}变化到{e1,e2,⋯,en}时,坐标不发生变化的向量
二. 马尔科夫链蒙特卡罗方法
a. 前言
对于马尔科夫链蒙特卡罗方法而言,其过程是一个抽样的过程,而其目的只有一个就是模拟分布,模拟的对象不一定是已经存在的分布,也有可能是模拟一些通过公式计算难以推导出的分布。而每一个抽样对象就是一个状态,马尔科夫链就是在这些状态之间不断游走。
b. 关于状态
- 对于MCMC,不管使用哪一种方法,状态的定义都是首要的也是非常重要的。
- 如果状态中的属性只有一个,那么就是这个属性的变化引起了状态的转换;如果状态中有多个属性,那么每次状态的转换都只能由其中一种属性的变化而引起
1. Metropolis-Hastings 方法
对 任 意 初 始 状 态 X 0 , 设 马 尔 科 夫 链 当 前 位 于 状 态 X n , 链 的 一 次 转 移 遵 循 以 下 步 骤 。 对任意初始状态X_0,设马尔科夫链当前位于状态X_n,链的一次转移遵循以下步骤。 对任意初始状态X0,设马尔科夫链当前位于状态Xn,链的一次转移遵循以下步骤。
- 若 X n = i , 依 据 初 始 转 移 矩 阵 P 中 第 i 行 的 各 转 移 概 率 给 出 转 移 状 态 到 j 的 建 议 若X_n=i,依据初始转移矩阵P中第i行的各转移概率给出转移状态到j的建议 若Xn=i,依据初始转移矩阵P中第i行的各转移概率给出转移状态到j的建议
- 计 算 接 受 概 率 a i j = m i n ( s j p j i s i p i j , 1 ) 计算接受概率a_{ij}=min(\displaystyle \frac{s_jp_{ji}}{s_ip_{ij}},1) 计算接受概率aij=min(sipijsjpji,1)
- 抛 掷 一 枚 正 面 朝 上 概 率 为 a i j 的 硬 币 抛掷一枚正面朝上概率为a_{ij}的硬币 抛掷一枚正面朝上概率为aij的硬币
- 若 硬 币 正 面 朝 上 , 则 接 受 建 议 , 从 而 链 在 下 一 时 刻 转 移 至 状 态 j , 即 X n + 1 = j ; 否 则 , 拒 绝 该 建 议 , 链 在 下 一 时 刻 仍 然 停 留 在 当 前 状 态 i , 即 X n + 1 = i 若硬币正面朝上,则接受建议,从而链在下一时刻转移至状态j,即X_{n+1}=j;否则,拒绝该建议,链在下一\\时刻仍然停留在当前状态i,即X_{n+1}=i 若硬币正面朝上,则接受建议,从而链在下一时刻转移至状态j,即Xn+1=j;否则,拒绝该建议,链在下一时刻仍然停留在当前状态i,即Xn+1=i
解释
- 首 先 要 明 确 p i j 和 s i , p i j 是 状 态 i 与 j 之 间 的 状 态 转 移 的 建 议 概 率 , 也 就 是 说 我 们 可 以 涉 及 一 个 初 始 分 布 让 状 态 间 的 转 移 概 率 服 从 这 个 分 布 , 但 该 分 布 不 一 定 是 状 态 向 量 所 服 从 的 真 实 的 平 稳 分 布 , 比 如 说 j − i = ξ , i − j = − ξ , 且 ξ ∼ N ( 0 , 1 ) , 那 么 p i j = ϕ ( ξ ) , p j i = ϕ ( − ξ ) , 也 就 是 说 每 两 个 状 态 间 的 转 移 建 议 概 率 服 从 一 个 标 准 正 态 分 布 , 同 时 由 于 标 准 正 态 分 布 的 对 称 性 , 所 以 p i j = p j i 。 也 就 是 说 对 于 大 部 分 转 移 建 议 矩 阵 而 言 其 设 计 应 该 是 一 个 对 称 矩 阵 , 这 样 有 助 于 后 边 的 计 算 首先要明确p_{ij}和s_i,p_{ij}是状态i与j之间的状态转移的建议概率,也就是说我们可以涉及一个初始分布让状态\\ 间的转移概率服从这个分布,但该分布不一定是状态向量所服从的真实的平稳分布,比如说j-i=\xi,\\i-j=-\xi,且\xi\thicksim N(0,1), 那么p_{ij}=\phi(\xi),p_{ji}=\phi(-\xi),也就是说每两个状态间的转移建议概率服从一个\\ 标准正态分布,同时由于标准正态分布的对称性,所以p_{ij}=p_{ji}。也就是说对于大部分转移建议矩阵而言其\\ 设计应该是一个对称矩阵,这样有助于后边的计算 首先要明确pij和si,pij是状态i与j之间的状态转移的建议概率,也就是说我们可以涉及一个初始分布让状态间的转移概率服从这个分布,但该分布不一定是状态向量所服从的真实的平稳分布,比如说j−i=ξ,i−j=−ξ,且ξ∼N(0,1),那么pij=ϕ(ξ),pji=ϕ(−ξ),也就是说每两个状态间的转移建议概率服从一个标准正态分布,同时由于标准正态分布的对称性,所以pij=pji。也就是说对于大部分转移建议矩阵而言其设计应该是一个对称矩阵,这样有助于后边的计算
- s i 为 状 态 i 在 平 稳 分 布 中 的 概 率 , 平 稳 分 布 是 要 根 据 要 模 拟 或 者 要 求 解 的 分 布 而 取 值 s_i为状态i在平稳分布中的概率,平稳分布是要根据要模拟或者要求解的分布而取值 si为状态i在平稳分布中的概率,平稳分布是要根据要模拟或者要求解的分布而取值
- 为 什 么 接 受 概 率 是 a i j = m i n ( s j p j i s i p i j , 1 ) , 因 为 真 正 的 转 移 概 率 是 q i j = p i j a i j , 接 受 概 率 如 此 设 计 主 要 是 为 了 满 足 s i q i j = s j q j i 条 件 的 成 立 , 从 而 证 明 在 更 新 转 移 概 率 后 的 转 移 矩 阵 中 , { s 1 , s 2 , ⋯ , s n } 永 远 是 一 条 稳 态 向 量 为什么接受概率是a_{ij}=min(\displaystyle \frac{s_jp_{ji}}{s_ip_{ij}},1),因为真正的转移概率是q_{ij}=p_{ij}a_{ij},接受概率如此设计主要是为了满足\\ s_iq_{ij}=s_jq_{ji}条件的成立,从而证明在更新转移概率后的转移矩阵中,\{s_1,s_2,\cdots,s_n\}永远是一条稳态向量 为什么接受概率是aij=min(sipijsjpji,1),因为真正的转移概率是qij=pijaij,接受概率如此设计主要是为了满足siqij=sjqji条件的成立,从而证明在更新转移概率后的转移矩阵中,{s1,s2,⋯,sn}永远是一条稳态向量
- p 一 般 与 s 不 服 从 同 一 个 随 机 分 布 , 首 先 如 果 是 一 维 状 态 空 间 , p 与 s 是 不 可 能 服 从 同 一 个 随 机 分 布 的 , 因 为 如 果 服 从 了 , 那 平 稳 分 布 就 没 有 求 的 必 要 了 , p 就 是 平 稳 分 布 , 或 者 平 稳 分 布 可 以 由 初 始 马 尔 科 夫 链 获 得 。 其 次 如 果 是 多 维 状 态 空 间 , 如 果 p 服 从 的 条 件 分 布 存 在 于 s 服 从 的 联 合 分 布 中 , 那 么 M e t r o p o l i s − H a s t i n g s 方 法 将 会 变 为 G i b b s 方 法 p一般与s不服从同一个随机分布,首先如果是一维状态空间,p与s是不可能服从同一个随机分布的,因为\\ 如果服从了,那平稳分布就没有求的必要了,p就是平稳分布,或者平稳分布可以由初始马尔科夫链获得。\\ 其次如果是多维状态空间,如果p服从的条件分布存在于s服从的联合分布中,那么Metropolis-Hastings \\方法将会变为Gibbs方法 p一般与s不服从同一个随机分布,首先如果是一维状态空间,p与s是不可能服从同一个随机分布的,因为如果服从了,那平稳分布就没有求的必要了,p就是平稳分布,或者平稳分布可以由初始马尔科夫链获得。其次如果是多维状态空间,如果p服从的条件分布存在于s服从的联合分布中,那么Metropolis−Hastings方法将会变为Gibbs方法
2. Gibbs抽样
Gibbs主要用于多维状态空间的平稳分布的模拟。主要分系统扫描和随机扫描。Gibbs分布不能选择一个建议分布,或者说它的建议分布是要模拟的状态向量所服从的联合分布中的条件分布,也就说Gibbs抽样更强调条件分布
系 统 扫 描 抽 样 \textcolor{green}{系统扫描抽样} 系统扫描抽样
- 给 定 Y = y n , 从 X 的 条 件 分 布 P ( X ∣ Y = y n ) 中 随 机 抽 取 x , 其 值 记 为 x n + 1 , 则 X n + 1 = x n + 1 给定Y=y_n,从X的条件分布P(X|Y=y_n)中随机抽取x,其值记为x_{n+1},则X_{n+1}=x_{n+1} 给定Y=yn,从X的条件分布P(X∣Y=yn)中随机抽取x,其值记为xn+1,则Xn+1=xn+1
- 给 定 X = x n + 1 , 从 Y 的 条 件 分 布 P ( Y ∣ X = x n + 1 ) 中 随 机 抽 取 y n + 1 , 记 Y n + 1 = y n + 1 。 给定X=x_{n+1},从Y的条件分布P(Y|X=x_{n+1})中随机抽取y_{n+1},记Y_{n+1}=y{n+1}。 给定X=xn+1,从Y的条件分布P(Y∣X=xn+1)中随机抽取yn+1,记Yn+1=yn+1。
- 重 复 步 骤 1 和 2 , 得 到 马 尔 科 夫 链 ( X 0 , Y 0 ) , ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , ⋯ 的 平 稳 分 布 记 为 p x , y 重复步骤1和2,得到马尔科夫链(X_0,Y_0),(X_1,Y_1),(X_2,Y_2),\cdots的平稳分布记为p_{x,y} 重复步骤1和2,得到马尔科夫链(X0,Y0),(X1,Y1),(X2,Y2),⋯的平稳分布记为px,y
随 机 扫 描 抽 样 \textcolor{green}{随机扫描抽样} 随机扫描抽样
- 等 概 率 地 选 择 一 个 随 机 变 量 进 行 更 新 等概率地选择一个随机变量进行更新 等概率地选择一个随机变量进行更新
- 若 变 量 X 被 选 中 , 则 从 X 的 条 件 分 布 P ( X ∣ Y = y n ) 中 随 机 抽 取 x , 其 值 记 为 x n + 1 , 且 X n + 1 = x n + 1 , Y n + 1 = y n ; 同 理 , 若 变 量 Y 被 选 中 , 则 从 Y 的 条 件 分 布 P ( Y ∣ X = x n + 1 ) 中 随 机 进 行 抽 取 得 到 y n + 1 , 记 X n + 1 = x n , Y n + 1 = y n + 1 若变量X被选中,则从X的条件分布P(X|Y=y_n)中随机抽取x,其值记为x_{n+1},且X_{n+1}=x_{n+1},Y_{n+1}=y_n;\\ 同理,若变量Y被选中,则从Y的条件分布P(Y|X=x_{n+1})中随机进行抽取得到y_{n+1},记X_{n+1}=x_n,Y_{n+1}=y_{n+1} 若变量X被选中,则从X的条件分布P(X∣Y=yn)中随机抽取x,其值记为xn+1,且Xn+1=xn+1,Yn+1=yn;同理,若变量Y被选中,则从Y的条件分布P(Y∣X=xn+1)中随机进行抽取得到yn+1,记Xn+1=xn,Yn+1=yn+1
- 重 复 步 骤 1 和 2 , 得 到 马 尔 科 夫 链 ( X 0 , Y 0 ) , ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , ⋯ 的 平 稳 分 布 记 为 p x , y 重复步骤1和2,得到马尔科夫链(X_0,Y_0),(X_1,Y_1),(X_2,Y_2),\cdots的平稳分布记为p_{x,y} 重复步骤1和2,得到马尔科夫链(X0,Y0),(X1,Y1),(X2,Y2),⋯的平稳分布记为px,y