Low-dimension Embedding详解(附带MDS算法)

本文详细介绍了低维嵌入的重要性和多维缩放(MDS)方法,用于解决机器学习中的维数灾难问题。MDS通过保留样本点间的距离来实现降维,其目标是使降维后的样本在低维空间中的欧氏距离等同于原始空间的距离。文章给出了MDS的数学描述、伪代码,并讨论了降维效果的评估方法。
摘要由CSDN通过智能技术生成

Low-dimension Embedding详解

第四十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。机器学习任务中的“维数灾难”(Curse of Dimensionality)会导致高维样本空间中的样本稀疏与距离计算困难等问题,为了解决该问题,本文介绍一种被称为“多维缩放”(Multiple Dimensional Scaling,简称MDS)的降维手段。

  在k近邻学习中存在这样一条假设,“给定测试样本 x \bf{x} x,若其最近邻样本为 z \bf{z} z,则最近邻分类器出错的概率就是 x \bf{x} x z \bf{z} z类别标记不同的概率,即

P ( e r r ) = 1 − ∑ c ∈ y P ( c ∣ x ) P ( c ∣ z ) P(err)=1-\sum_{c\in{y}}{P(c|{\bf{x}})P(c|{\bf{z}})} P(err)=1cyP(cx)P(cz)

对于任意样本点,总能在任意近的范围内找到上式中的训练样本 z \bf{z} z”,要满足上述的假设条件需要训练样本的采样密度足够大,或者称为“密采样”,然而这个假设在现实任务中很难满足,尤其是当属性维数成千上万时,要满足密采样条件所需的样本数目是无法达到的“天文数字”,另外高维样本空间中的距离计算也是一个难点。
  上面提到的,在高维样本空间中的样本稀疏与距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”(Curse of Dimensionality),缓解这种问题的一个重要途径就是“降维”(Dimension Reduction),也称为“维数约减”,即通过某种数学变换使得高维属性空间转变为一个低维“子空间”(Subspace),在这个样本空间中样本密度将大大提高,而且距离计算也变得更加容易,这是由于与学习任务密切相关的也许只是数据集的某个低维分布,即高维空间中的一个低维“嵌入”(Embedding),基于密度聚类算法中的子空间聚类可以看做是一种简单降维手段的应用。

图1 高维样本空间的子空间

为了将原始空间中样本点之间的距离在低维空间中得到保持,我们可以使用一种称为“多维缩放”(Multiple Dimensional Scaling,简称MDS)的降维手段,下面对MDS方法进行描述。
  假定 m m m个样本点在原始空间中的距离矩阵为 D ∈ R m × m D\in{\Bbb{R}^{m\times{m}}} DRm×m,其中元素 d i s t i j dist_{ij} distij为样本点 x i {\bf{x}}_i xi x j {\bf{x}}_j xj之间的距离,MDS的目标是习得样本点在 d ′ d' d维空间中的表示 z ∈ R d ′ × m {\bf{z}}\in{\Bbb{R}^{d'\times{m}}} zRd×m,其中 d ′ ≪ d d'\ll{d} dd,且任意两个样本点在 d ′ d' d维空间之间的欧氏距离等于原始空间中这两个样本点之间的距离,即 ∣ ∣ z i − z j ∣ ∣ = d i s t i j ||{\bf{z}}_{i}-{\bf{z}}_{j}||=dist_{ij} zizj=distij。如果令 B = Z T Z ∈ R m × m {\bf{B}}={\bf{Z}}^{T}{\bf{Z}}\in{\Bbb{R}^{m\times{m}}} B=ZTZRm×m表示 d ′ d' d维空间中样本点的内积矩阵,其中元素 b i j = z i T z j b_{ij}={\bf{z}}_{i}^{T}{\bf{z}}_{j} bij=ziTzj,那么上述条件可以表示为

(1) d i s t i j 2 = ∣ ∣ z i ∣ ∣ 2 + ∣ ∣ z j ∣ ∣ 2 − 2 z i T

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值