【论文笔记】Hybrid Subspace Learning for High-Dimensional Data

论文链接:Hybrid Subspace Learning for High-Dimensional Data

1. Abstract

真实世界中,高维数据是一个非常普遍的问题。在高维空间中学习一个紧的,低维子空间的数据表达有助于区分信号和噪声。PCA方法是假设数据是可以被一个或多个隐藏的子空间的嵌入来表达。但是,在许多高维数据中,这种处理方法是不合适的。常常是只有某些变量可以经过线性转换投影到低维空间。论文提出了一种混合的降维技巧:部分变量投影到低维子空间,另外一部分变量保留。文章提出的模型能够更加准确地估计隐藏空间,并且有较低的恢复误差。

2. Introduction

高维数据经常出现在生物医学中,比如基因表达数据(每个人基因表达数据的测量耗费较大)。一些传统的机器学习算法缺失有效的统计性能去区分信号和噪声。

缓和维度灾难的方法包括提取原始特征中的一个子集,或者学习一个新的子空间(原始特征空间的投影)。论文提出的方法主要是学习数据在隐藏子空间的表达,这个表达能够最大程度的原始数据的信息。

现存的子空间学习方法最大的限制在于它们假设数据可以通过嵌入一些低维子空间来完全表示。真实世界中,可能只有某个特征子集才会呈现出低维空间结构,而其余的特征仍然保留,而并非全部特征。显然,如果某些特征 { F i } \{F_i\} { Fi} 与其它特征完全不相关,而使用降维算法在学习潜在子空间时,子空间的每个维度都会带有 { F i } \{F_i\} { Fi}。事实上,这个特征集 { F i } \{F_i\} { Fi} 不应该带入潜在子空间的学习上。

如下图Fig1,两幅图都呈现出2维的子空间结构,但是第一幅图的2维子空间每个维度都是 x 1 , x 2 , x 3 {x_1,x_2,x_3} x

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值