反转图嵌入


文章链接: Probabilistic Dimensionality Reduction via Structure Learning.–2016( 《IEEE Transactions on Pattern Analysis & Machine Intelligence》被引量3).

主要贡献

本文的主要贡献概括如下:

  • 提出了一种用于降维的概率框架,它不仅考虑了数据的噪声,而且还利用邻域图作为位置信息。既考虑到数据生成错误,又考虑到成对距离约束;

  • 在 the expected distances上,通过利用 ℓ2 损失函数提出了新模型,给定一个邻域图,该模型能够学习嵌入点的平滑骨架结构,并通过使数据点之间成对距离的收缩来保留噪声数据的固有结构;

  • 提出另外一个模型,它可以找到一组可直接形成显式图结构的嵌入点;(为了证明此模型学到的:显式图推广了反向图嵌入方法, 但从贝叶斯的角度来看,这是一种自然的解释);

  • 讨论了所提出的模型与各种现有方法之间的联系,包括反向图嵌入,MEU和结构学习方法。

降维概述

  • 降维要做的事:
    一组数据点(N个): Y = { y i } i = 1 N \mathbb {Y}=\lbrace \mathbf{y}_i\rbrace _{i=1}^N Y={yi}i=1N y i ∈ R D \mathbf{y}_i \in \mathbb {R}^D yiRD
    找到一组数据点(N个): X = { x i } i = 1 N \mathbb {X}=\lbrace \mathbf{x}_i\rbrace _{i=1}^N X={xi}i=1N x i ∈ R d \mathbf{x}_i \in \mathbb {R}^{d} xiRd,其中 d &lt; D d&lt;D d<D.
  • 降维的两个角度:确定性和概率性
  • 概率模型能够考虑数据生成的噪声模型。
    在这里,观察数据 Y \mathbb {Y} Y和降维数据 X \mathbb {X} X被看作随机变量
    令矩阵 X = [ x 1 , … , x N ] T ∈ R N × d \mathbf{X}= [\mathbf{x}_1,\ldots, \mathbf{x}_N]^T \in \mathbb {R}^{N \times d} X=[x1,,xN]TRN×d Y = [ y 1 , … , y N ] T ∈ R N × D \mathbf{Y}=[\mathbf{y}_1,\ldots, \mathbf{y}_N]^T \in \mathbb {R}^{N \times D} Y=[y1,,yN]TRN×D
    假设 xi 和 yi 之间呈线性关系,噪声由下式给出:
    y i = W x i + ϵ i , ∀ i , \mathbf{y}_i = \mathbf{W}\mathbf{x}_i + \boldsymbol {\epsilon }_i, \forall i, yi=Wxi+ϵi,i,
    其中, W ∈ R D × d \mathbf{W}\in \mathbb {R}^{D \times d} WRD×d是线性投影矩阵, ϵ i ∈ R D \boldsymbol {\epsilon }_i \in \mathbb {R}^D ϵiRD是噪声向量。噪声相互独立,且服从均值为0,协方差为 γ − 1 I D \gamma ^{-1} \mathbf{I}_D γ1ID 的球面高斯分布,其中 γ &gt; 0 \gamma &gt;0 γ>0, I D \mathbf{I}_D ID D × D D \times D D×D 阶的单位矩阵, y i \mathbf{y}_i yi的概率为:
    p ( y i ∣ x i , W , γ ) = N ( y i ∣ W x i , γ − 1 I D ) p(\mathbf{y}_i | \mathbf{x}_i, \mathbf{W}, \gamma) = \mathcal{N}(\mathbf{y}_i | \mathbf{W}\mathbf{x}_i, \gamma ^{-1} \mathbf{I}_D) p(yixi,W,γ)=N(yiWxi,γ1ID)
    the whole data的概率为: p ( Y ∣ X , W , γ ) = ∏ i = 1 N p ( y i ∣ x i , W , γ ) p(\mathbf{Y}| \mathbf{X}, \mathbf{W}, \gamma) = \prod _{i=1}^N p(\mathbf{y}_i | \mathbf{x}_i, \mathbf{W}, \gamma) p(YX,W,γ)=i=1Np(yixi,W,γ)

流程图

三、方法

  • (1) 正则化的经验贝叶斯推理
  • (2) 捕获流形结构的期望约束

1.正则化的经验贝叶斯推理

  • 正则化的经验贝叶斯推理是一种基于后验推理的优化公式,利用知识驱动和数据驱动替换标准正态性约束。
1.1 定义及公式
  • M ˙ \dot{M} M˙表示为可行模型的空间,是一个完全可分离的度量空间,其中 B ( M ˙ ) B(\dot{M}) B(M˙)Borel σ \sigma σ-代数 , M ϵ M ˙ M\epsilon \dot{M} MϵM˙是该空间中的元素,此外,将 ∏ \prod 表示为可测量空间 ( M ˙ , B ( M ˙ ) ) \left ( \dot{M},B\left ( \dot{M} \right ) \right ) (M˙,B(M˙))里面的分布, 我们假设 ∏ \prod 在某种背景测量 μ \mu μ下是绝对连续的,因此存在密度函数 π \pi π使得 d ∏ = π d μ d\prod =\pi d\mu d=πdμ
  • 给定一个模型,令 D D D 是一组独立同分布的观测点集,定义 q ( ⋅ ) q\left ( \cdot{} \right ) q() π ( ⋅ ) \pi \left ( \cdot \right ) π()相对熵: 相对熵解释.
    K L ( q ( M ) ∥ π ( M ) ) = ∫ M ˙ q ( M ) l o g ( q ( M ) π ( M ) ) d μ ( M ) KL(q(M)\parallel \pi (M)) =\int_{\dot{M}}q(M)log(\frac{q(M)}{\pi \left ( M \right )})d\mu \left ( M \right ) KL(q(M)π(M))=M˙q(M)log(π(M)q(M))dμ(M)
  • 若存在未知参数(例如超参数),并需要估计过程(如,极大似然估计),经验贝叶斯推断是必要的。
    在这里,我们关注期望约束,其中每个约束都是 q ( M ) q\left ( M \right ) q(M)关于期望的函数,下面举例说明:
  • ψ ( ψ 1 , ψ 2 , ⋅ ⋅ ⋅ ⋅ , ψ T ) \psi \left ( \psi _{1},\psi _{2},\cdot \cdot \cdot \cdot ,\psi _{T} \right ) ψ(ψ1,ψ2,,ψT)是一组特征函数,定义在 M ˙ \dot{M} M˙上,用 ψ t ( M ; D ) \psi _{t}\left ( M;D \right ) ψt(M;D)表示,并且可能依赖于数据。参数 Θ \Theta Θ 未知,正则化的经验贝叶斯推理通过以下优化公式(1) 给出:
    在这里插入图片描述

其中, E q ( M ) [ ψ M ( M ; D ) ] E_{q\left ( M \right )}\left [ \psi _{M}\left ( M;D \right ) \right ] Eq(M)[ψM(M;D)] 是指 ψ t ( M ; D ) \psi _{t}\left ( M;D \right ) ψt(M;D) 超过 q ( M ) q\left ( M \right ) q(M)的期望, U U U { E q ( M ) [ ψ M ( M ; D ) ] } t = 1 T \left \{ E_{q\left ( M \right )}\left [ \psi _{M}\left ( M;D \right ) \right ] \right \}_{t=1}^{T} {Eq(M)[ψM(M;D)]}t=1T 的函数(正则化部分),
Θ \Theta Θ是未知参数 θ \theta θ 的可行集合, P p r o p \mathbb{P}^{_{prop}} Pprop是分布的子空间,
注意,在最小化公式(1)中,关于 q ( M ) q\left ( M \right ) q(M) Θ \Theta Θ,前两项导致最优解 :
在这里插入图片描述
Θ ∗ \Theta ^{\ast } Θ.

其等价于最大似然估计:

在这里插入图片描述
因此,优化公式(1)被称为正则化经验贝叶斯推断,其中正则化项对捕获结构信息数据很有用。

2.成对距离的期望约束

  • 期望约束被广泛用于研究广义最大熵模型和正则化的贝叶斯推理模型中的分类问题。
    特征函数的定义是形成期望约束的必要因素之一,另一个必要是确定函数 U U U .
    给定概率密度函数 q ( M ) q\left ( M \right ) q(M)
  • 如前所述,大多数判别方法将成对距离作为关键信息,因此,在本文中,可以将成对距离视为用于降维的特征函数的因子
定义
  • 特征函数 ψ i , j \psi _{i,j} ψi,j表示嵌入点 xi 和 xj 的成对距离之间的差异;
  • ϕ ( i , j ) \phi \left ( i,j \right ) ϕ(i,j)表示嵌入点 xi 和 xj 相应的距离;
    并有关系式 ψ i , j ( X , Y ) = ∥ x i − x j ∥ 2 − ϕ i , j \psi _{i,j}\left ( X,Y \right )=\left \| x_{i}-x_{j} \right \|^{2}-\phi _{i,j} ψi,j(X,Y)=xixj2ϕi,j
  • 确定函数 U U U
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值