机器学习笔记之狄利克雷过程(二)基于标量参数作用的推导过程

本文详细介绍了狄利克雷过程在机器学习中的应用,特别是标量参数如何影响分布的离散程度。当参数α趋近于0,离散分布极度集中;而α趋于无穷时,可能产生无限多的离散结果。通过公式推导,展示了α如何影响狄利克雷过程生成的随机离散测度的期望和方差,进一步解释了α对分布离散化程度的控制作用。
摘要由CSDN通过智能技术生成

引言

上一节高斯混合模型为引,简单介绍了狄利克雷过程( Dirichlet Process,DP \text{Dirichlet Process,DP} Dirichlet Process,DP)。本节将通过公式推导描述标量参数 α \alpha α的作用。

回顾:狄利克雷过程——基本介绍

狄利克雷过程本质上是分布的分布。基于给定的样本集合 X = { x ( i ) } i = 1 N \mathcal X= \{x^{(i)}\}_{i=1}^N X={ x(i)}i=1N,我们针对每个样本 x ( i ) ( i = 1 , 2 , ⋯   , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,,N)构建一个对应参数 θ ( i ) ( i = 1 , 2 , ⋯   , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,,N)。对应的参数集合 θ \theta θ为:
θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={ θ(i)}i=1N
关于狄利克雷过程,它的表达形式表示如下:
G ∼ DP [ α , H ( θ ) ] \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] GDP[α,H(θ)]
其中 G \mathcal G G狄利克雷过程产生的样本结果,本身是一个离散分布( Discrete Distribution \text{Discrete Distribution} Discrete Distribution); H ( θ ) \mathcal H(\theta) H(θ)表示关于参数集合 θ \theta θ概率分布 α \alpha α则是一个调整分布结果 G \mathcal G G离散程度的标量参数,且 α > 0 \alpha > 0 α>0

关于标量参数 α \alpha α

  • α = 0 \alpha = 0 α=0时,此时的离散分布 G \mathcal G G极度离散,无论如何随机采样,只能映射唯一的离散结果
  • α = ∞ \alpha = \infty α=时,此时离散分布 G \mathcal G G在采样过程中,可能存在无穷多种离散结果提供选择,并且每种选择均存在对应的概率值。此时的 G = H ( θ ) \mathcal G = \mathcal H(\theta) G=H(θ)

下面会用公式推导的方式对上述两种情况进行描述。

狄利克雷过程——定义

根据上面的描述,如果分布 G \mathcal G G是一个优秀的离散分布,那么从分布 G \mathcal G G中产生的样本 θ ( i ) , θ ( j ) ( i , j ∈ { 1 , 2 , ⋯   , N } ; i ≠ j ) \theta^{(i)},\theta^{(j)}(i,j \in \{1,2,\cdots,N\};i \neq j) θ(i),θ(j)(i,j{ 1,2,,N};i=j)必然存在 θ ( i ) = θ ( j ) \theta^{(i)} = \theta^{(j)} θ(i)=θ(j)的情况发生。
也就是说, θ ( i ) = θ ( j ) \theta^{(i)} = \theta^{(j)} θ(i)=θ(j)意味着 x ( i ) , x ( j ) x^{(i)},x^{(j)} x(i),x(j)均指向了同一聚类信息。

此时,将不同结果的 θ ( i ) \theta^{(i)} θ(i)收集起来,其结果数量必然 < N <N <N θ \theta θ结果相同对应的样本子集 X θ \mathcal X_{\theta} Xθ自然就聚类在一起,实现聚类数量 K < N \mathcal K < N K<N的情况。
关于高斯混合模型的示例,详见狄利克雷过程——基本介绍

重新观察狄利克雷过程 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H),关于 θ \theta θ的概率分布 H ( θ ) \mathcal H(\theta) H(θ)被称作基本测度( Base Measure \text{Base Measure} Base Measure)。从采样的角度观察狄利克雷过程与高斯混合模型,观察它们之间的区别:
作为区分,将 ϕ \phi ϕ作为高斯混合模型概率密度函数的参数。
{ G ∼ DP ( α , H ) x ( j ) ∼ P ( X ; ϕ ) \begin{cases} \mathcal G \sim \text{DP}(\alpha,\mathcal H) \\ x^{(j)} \sim \mathcal P(\mathcal X;\phi) \end{cases} { GDP(α,H)x(j)P(X;ϕ)

能够发现:

  • 高斯混合模型中采样得到的结果是一个样本空间中的样本点

  • 狄利克雷过程中采样得到的结果是一个完整分布,是一个随机离散型概率测度( Random Discrete Probability Measure \text{Random Discrete Probability Measure} Random Discrete Probability Measure)。

    假设 G ( i ) \mathcal G^{(i)} G(i)是从 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)中采样得到的一个样本,那么离散分布 G ( i ) \mathcal G^{(i)} G(i)表示为如下形式:
    这里假设 G ( i ) \mathcal G^{(i)} G(i)是一个一维的分布
    G ( i ) = ( g 1 ( i ) , g 2 ( i ) , ⋯   , g K ( i ) ) ∑ k = 1 K g k ( i ) = 1 \mathcal G^{(i)} = \left(g_1^{(i)},g_2^{(i)},\cdots,g_{\mathcal K}^{(i)}\right) \quad \sum_{k=1}^{\mathcal K} g_k^{(i)} = 1 G(i)=(g1(i),g2(i),,gK(i))k=1Kgk(i)=1
    其中 g k ( i ) ( k ∈ { 1 , 2 , ⋯   , K } ) g_k^{(i)}(k \in \{1,2,\cdots,\mathcal K\}) gk(i)(k{ 1,2,,K})表示编号 k k k离散结果的权重/概率信息。即便 α \alpha α取值相同( α s a m e \alpha_{same} αsame),对应产生的随机离散分布 G ( i ) , G ( j ) ( i ≠ j ; G ( i )

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值