马尔可夫链
马尔可夫链(Markov Chain)是一种统计模型,描述了一个系统在不同状态之间的转移过程。该模型具有“无记忆性”性质,即系统未来的状态只依赖于当前状态,而与之前的状态无关。
主要概念
-
状态空间:
- S S S:所有可能状态的集合。 -
转移概率:
- P ( X t + 1 = s j ∣ X t = s i ) = p i j P(X_{t+1} = s_j | X_t = s_i) = p_{ij} P(Xt+1=sj∣Xt=si)=pij:从状态 s i s_i si转移到状态 s j s_j sj的概率。 -
状态转移矩阵:
- 矩阵 P P P,其中每个元素 p i j p_{ij} pij表示从状态 s i s_i si转移到状态 s j s_j sj的概率。
公式
设 X t X_t Xt表示时刻 t t t的状态,则马尔可夫性质表示为:
P ( X t + 1 = s j ∣ X 0 = s i 0 , X 1 = s i 1 , … , X t = s i ) = P ( X t + 1 = s j ∣ X t = s i ) P(X_{t+1} = s_j | X_0 = s_{i_0}, X_1 = s_{i_1}, \ldots, X_t = s_i) = P(X_{t+1} = s_j | X_t = s_i) P(Xt+1=sj∣X0=si0,X1=si1,…,Xt=si)=P(Xt+1=sj∣Xt=si)
特性
- 初始分布:系统开始时的状态分布。
- 转移矩阵:描述系统状态如何随时间转移。
- 稳态分布:在时间趋于无穷时,系统状态分布达到平衡,不再随时间变化。
应用
- 随机过程建模:用于建模金融市场、天气预测等。
- 序列数据生成:在自然语言处理和图像生成中,用于模拟和生成序列数据。
在扩散模型中的应用
在扩散模型中,马尔可夫链用于定义从噪声到数据的逆过程。每一步的转移由高斯分布描述,其参数通过模型学习得到:
p θ ( x t − 1 ∣ x t ) : = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) := \mathcal{N}(\mathbf{x}_{t-1}; \mu_\theta(\mathbf{x}_t, t), \Sigma_\theta(\mathbf{x}_t, t)) pθ(xt−1∣xt):=N(xt−1;μθ(xt,t),Σθ(xt,t))
这个逆过程逐步去噪,最终生成逼真的数据样本。