联合分布,条件分布与一些定理

联合分布 p ( x , y ) p(x, y) p(x,y)

联合分布 p ( x , y ) p(x, y) p(x,y) 表示随机变量 X X X Y Y Y 同时取某些特定值的概率。例如,如果我们有一个冰淇淋店的销售数据,联合分布 p ( x , y ) p(x, y) p(x,y) 可以表示某一天的温度为 x x x 摄氏度且销售额为 y y y 元的概率。

条件分布 p ( x ∣ y ) p(x|y) p(xy)

条件分布 p ( x ∣ y ) p(x|y) p(xy) 表示在随机变量 Y Y Y 取已知值 y y y 时,随机变量 X X X 的概率分布。换句话说,它告诉我们在已知 Y = y Y = y Y=y 的情况下, X X X 的分布情况。所以在表达式 p ( x ∣ y ) p(x|y) p(xy) 中,虽然 x x x , y y y 都是小写,但是 y y y 是确定的,表达 Y = y Y = y Y=y ,而 x x x 并不是确定的,是一个分布。这个分布就是 p ( x ∣ y ) p(x|y) p(xy) 。例如,冰淇淋店在销售额为 Y = y Y=y Y=y 时温度 X X X 的分布情况。
另一种理解: X ∣ Y X|Y XY 表示 X X X 这个随机变量和 Y Y Y 之间的关系,或者说 X X X 是怎么由 Y Y Y 得到或表示的。而 p ( x ∣ y ) p(x|y) p(xy) 则表示如何由 Y = y Y=y Y=y (Y确定)得到 X X X 的分布 p ( x ) p(x) p(x) 。例如,若 X = Y + ϵ X = Y + \epsilon X=Y+ϵ ,其中 ϵ \epsilon ϵ 是标准正态分布,则 X ∣ Y = Y + ϵ X|Y = Y + \epsilon XY=Y+ϵ p ( x ∣ y ) ∼ N ( x ∣ y , 1 ) p(x|y) \sim N(x|y,1) p(xy)N(xy,1)

  • 等式两边同时加一个相同的条件,等式仍成立。如:

    • Bayes定理:
      q ( x t ∣ x t − 1 ) = q ( x t − 1 ∣ x t ) q ( x t ) q ( x t − 1 ) q(x_t | x_{t-1}) = \frac{q(x_{t-1} | x_t) q(x_t)}{q(x_{t-1})} q(xtxt1)=q(xt1)q(xt1xt)q(xt)
      在两边同时添加条件 x 0 x_0 x0,得到:
      q ( x t ∣ x t − 1 , x 0 ) = q ( x t − 1 ∣ x t , x 0 ) q ( x t ∣ x 0 ) q ( x t − 1 ∣ x 0 ) q(x_t | x_{t-1}, x_0) = \frac{q(x_{t-1} | x_t, x_0) q(x_t | x_0)}{q(x_{t-1} | x_0)} q(xtxt1,x0)=q(xt1x0)q(xt1xt,x0)q(xtx0)
    • 链式法则:
      p ( x , y ) = p ( x ∣ y ) p ( y ) p(x, y) = p(x|y) p(y) p(x,y)=p(xy)p(y)
      在两边同时添加条件 z z z,得到:
      p ( x , y ∣ z ) = p ( x ∣ y , z ) p ( y ∣ z ) p(x, y | z) = p(x | y, z) p(y | z) p(x,yz)=p(xy,z)p(yz)

    也就是说,条件概率的链式法则和贝叶斯公式在加入额外条件时仍然适用。

联合分布和条件分布的关系

根据概率的乘法规则,联合分布 p ( x , y ) p(x, y) p(x,y) 可以表示为条件分布 p ( x ∣ y ) p(x|y) p(xy) 和边际分布 p ( y ) p(y) p(y) 的乘积:

p ( x , y ) = p ( x ∣ y ) ⋅ p ( y ) p(x, y) = p(x|y) \cdot p(y) p(x,y)=p(xy)p(y)

这表示在已知 Y Y Y 的情况下,计算 X X X 的概率分布,再乘以 Y Y Y 的边际概率,就可以得到 X X X Y Y Y 同时发生的概率。

  • 边际化方法求概率分布
    如果我们想从联合分布 p ( x , y ) p(x, y) p(x,y) 中得到 x x x 的边际分布,我们需要对 y y y 进行积分:

    p ( x ) = ∫ p ( x , y )   d y p(x) = \int p(x, y) \, dy p(x)=p(x,y)dy

    这个过程称为边际化,通过对 y y y 进行积分,我们消除了 y y y 的影响,从而得到 x x x 的边际概率分布 p ( x ) p(x) p(x)。例如,在冰淇淋店的例子中,边际分布 p ( x ) p(x) p(x) 等于在所有可能的销售额情况下,温度的概率分布情况。

概率的链式法则

概率的链式法则是一种计算多个事件联合概率的方法。它基于概率的基本乘法规则。对于任意事件 A 1 , A 2 , … , A n A_1, A_2, \ldots, A_n A1,A2,,An,联合概率可以表示为:

p ( A 1 , A 2 , … , A n ) = p ( A 1 ) p ( A 2 ∣ A 1 ) p ( A 3 ∣ A 1 , A 2 ) ⋯ p ( A n ∣ A 1 , A 2 , … , A n − 1 ) p(A_1, A_2, \ldots, A_n) = p(A_1) p(A_2 | A_1) p(A_3 | A_1, A_2) \cdots p(A_n | A_1, A_2, \ldots, A_{n-1}) p(A1,A2,,An)=p(A1)p(A2A1)p(A3A1,A2)p(AnA1,A2,,An1)

这个公式从第一个事件的边缘概率开始,之后每一项都是在前面所有事件发生的条件下,下一个事件发生的条件概率。

独立性

如果两个随机变量 X X X Y Y Y 是独立的,这意味着 X X X 的取值不受 Y Y Y 的影响,反之亦然。在这种情况下,条件分布 p ( x ∣ y ) p(x|y) p(xy) 等于边际分布 p ( x ) p(x) p(x)

p ( x ∣ y ) = p ( x ) p(x|y) = p(x) p(xy)=p(x)

因为 X X X Y Y Y 是独立的, Y Y Y 的取值不会影响 X X X 的分布。因此,联合分布 p ( x , y ) p(x, y) p(x,y) 可以表示为两个边际分布的乘积:

p ( x , y ) = p ( x ) ⋅ p ( y ) p(x, y) = p(x) \cdot p(y) p(x,y)=p(x)p(y)

马尔可夫链介绍

  • 马尔可夫链(Markov Chain)是一种数学模型,用来描述一个系统从一个状态转移到另一个状态的过程。其主要特点是:在给定当前状态的条件下,未来状态的分布仅依赖于当前状态,而与之前的状态无关。这种性质称为“马尔可夫性”或“无记忆性”。

  • 马尔可夫链的定义和条件
    马尔可夫链可以定义为一个离散时间随机过程 { X t } t ≥ 0 \{X_t\}_{t \geq 0} {Xt}t0,满足以下条件:

    • 状态空间:表示系统可能处于的所有状态的集合,记作 S S S
    • 转移概率分布:从状态 i i i 转移到状态 j j j 的概率分布,记作 p ( x t + 1 ∣ x t ) p(x_{t+1} \mid x_t) p(xt+1xt)

    马尔可夫链的条件转移概率定义如下:

    p ( x t + 1 ∣ x t , x t − 1 , … , x 0 ) = p ( x t + 1 ∣ x t ) p(x_{t+1} \mid x_t, x_{t-1}, \ldots, x_0) = p(x_{t+1} \mid x_t) p(xt+1xt,xt1,,x0)=p(xt+1xt)
    这说明,在给定当前状态 x t x_t xt 的条件下,未来状态 x t + 1 x_{t+1} xt+1 的分布仅依赖于当前状态 x t x_t xt,而与之前的状态无关。注意,马尔可夫链只有前向过程满足这个性质,后向过程不一定满足。

  • 马尔可夫链的应用示例
    对于马尔可夫链,我们可以通过条件概率的链式法则(chain rule)来求解联合概率分布 p ( x 0 : T ) p(x_{0:T}) p(x0:T)。具体来说,对于时序数据 x 0 : T x_{0:T} x0:T,可以表示为:
    p ( x 0 : T ) = p ( x 0 ) ∏ t = 1 T p ( x t ∣ x t − 1 ) p(x_{0:T}) = p(x_0) \prod_{t=1}^T p(x_t \mid x_{t-1}) p(x0:T)=p(x0)t=1Tp(xtxt1)
    这个公式表示的是一个递推形式,其中 p ( x 0 : T ) p(x_{0:T}) p(x0:T) 表示从时间点 0 到 T 的联合概率分布。通过条件概率的链式法则,我们可以将联合概率分布写成一系列条件概率的乘积。证明如下:

    • 对于时序数据 x 0 : T x_{0:T} x0:T,我们可以使用链式法则:

      p ( x 0 : T ) = p ( x 0 ) p ( x 1 ∣ x 0 ) p ( x 2 ∣ x 1 , x 0 ) ⋯ p ( x T ∣ x T − 1 , x T − 2 , ⋯   , x 0 ) p(x_{0:T}) = p(x_0) p(x_1 \mid x_0) p(x_2 \mid x_1, x_0) \cdots p(x_T \mid x_{T-1}, x_{T-2}, \cdots, x_0) p(x0:T)=p(x0)p(x1x0)p(x2x1,x0)p(xTxT1,xT2,,x0)

    • 马尔可夫性假设
      通常在时序模型中,我们会假设数据满足马尔可夫性,即当前状态仅依赖于前一个状态,而与更早的状态无关。这种情况下,有:

      p ( x t ∣ x t − 1 , x t − 2 , ⋯   , x 0 ) = p ( x t ∣ x t − 1 ) p(x_t \mid x_{t-1}, x_{t-2}, \cdots, x_0) = p(x_t \mid x_{t-1}) p(xtxt1,xt2,,x0)=p(xtxt1)
      因此,上面的公式可以简化为:
      p ( x 0 : T ) = p ( x 0 ) ∏ t = 1 T p ( x t ∣ x t − 1 ) p(x_{0:T}) = p(x_0) \prod_{t=1}^T p(x_t \mid x_{t-1}) p(x0:T)=p(x0)t=1Tp(xtxt1)

      这个公式成立的条件是系统满足马尔可夫性,即每个时间点的状态只依赖于前一个时间点的状态,而不是要求所有 x t x_t xt 都独立。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值