十个技巧,让你成为“降维”专家

本文为数据分析师提供了降维方法的实用指南,涵盖了选择合适方法、预处理不同类型数据、处理分类变量、利用嵌入技术、决定降维维度、正确可视化、理解新维度含义、识别数据模式、整合多领域数据以及评估结果稳定性的十个关键技巧。降维在处理高维数据时能去噪简化问题,帮助理解复杂结构,但须谨慎避免误用和误解。
摘要由CSDN通过智能技术生成

大数据文摘出品

来源:PLOS

编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培

 

在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。

 

作为数据去噪简化的一种方法,它对处理大多数现代生物数据很有帮助。在这些数据集中,经常存在着为单个样本同时收集数百甚至数百万个测量值的情况。

 

由于“维度灾难”(curse of dimensionality)的存在,很多统计方法难以应用到高维数据上。虽然收集到的数据点很多,但是它们会散布在一个庞大的、几乎不可能进行彻底探索的高维空间中。

 

通过降低数据的维度,你可以把这个复杂棘手的问题变得简单轻松。除去噪音但保存了所关注信息的低维度数据,对理解其隐含的结构和模式很有帮助。原始的高维度数据通常包含了许多无关或冗余变量的观测值。降维可以被看作是一种潜在特征提取的方法。它也经常用于数据压缩、数据探索以及数据可视化。

 

虽然在标准的数据分析流程中已经开发并实现了许多降维方法,但它们很容易被误用,并且其结果在实践中也常被误解。

 

本文为从业者提供了一套有用的指南,指导其如何正确进行降维,解释其输出并传达结果。

 

技巧1:选择一个合适的方法

 

当你想从现有的降维方法中选择一种进行分析时,可用的降维方法的数量似乎令人生畏。事实上,你不必拘泥于一种方法;但是,你应该意识到哪些方法适合你当前的工作。

 

降维方法的选择取决于输入数据的性质。比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。你也应该用你的直觉和相关的领域知识来考虑收集到的数据。通常情况下,观测可以充分捕获临近(或类似)数据点之间的小规模关系,但并不能捕获远距离观测之间的长期相互作用。对数据的性质和分辨率的考虑是十分重要的,因为降维方法可以还原数据的整体或局部结构。一般来说,线性方法如主成分分析(Principal Component Analysis, PCA)、对应分析(Correspondence Analysis, CA)、多重对应分析(Multiple Correspondence Analysis, MCA)、经典多维尺度分析(classical multidimensional scaling, cMDS)也被称为主坐标分析(Principal Coordinate Analysis, PCoA) 等方法,常用于保留数据的整体结构;而非线性方法,如核主成分分析(Kernel Principal Component Analysis, Kernel PCA)、非度量多维尺度分析(Nonmetric Multidimensional Scaling, NMDS)、等度量映射(Isomap)、扩散映射(Diffusion Maps)、以及一些包括t分布随机嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)在内的邻近嵌入技术,更适合于表达数据局部的相互作用关系。NE技术不会保留数据点之间的长期相互作用关系,其可视化报告中的非临近观测组的排列并没有参考价值。因此,NE的图表不应该被用于数据的大规模结构的推测。有关线性和非线性降维方法的综述可分别参考如下两篇文章。

 

相关链接:

https://scholar.google.com/scholar?q=Linear+Dimensionality+Reduction%3A+Survey%2C+Insights%2C+and+Generalizations+Cunningham+2015

https://arxiv.org/abs/1803.02432)

 

如果你的观测值带有类别标签,并且你的目标是将观测值分类到已知的与其最匹配的类别中去时,则可以考虑使用监督降维技术。监督降维技术包括偏最小二乘法(Partial Least Squares, PLS)、线性判别分析(Linear Discriminant Analysis, LDA)、近邻成分分析(Neighborhood Component Analysis)和Bottleneck神经网络分类器。与之前提到的非监督降维方法不同的是,非监督方法并不知道观测值所属的类别,而监督降维方法可以直接利用类别信息把相同标签的数据点聚集到一起。

 

对于收集多领域数据的情况,例如基因表达、蛋白质组学以及甲基化的数据,你可能需要先将降维技术分别应用到每张数据表中,然后再使用普鲁克变换(Procrustes transformation,相关链接:https://onlinelibrary.wiley.com/doi/abs/10.1002/bs.3830070216)或是其他可以将多个数据集整合的方法,如用于多个表的联合分析方法(称为STATIS);和用于多个距离矩阵的联合分析(称为DisTATIS,相关链接:)(详细信息请参考技巧9)。表1给出了降维技术的基本属性的分类和总结。为了帮助从业者,我们也把本文讨论过的降维技术的实现方法总结到表2中。

 

表1.降维方法

 

 

表2.案例实现

 

 

技巧2:对连续型和计数型输入数据进行预处理

 

在应用降维技术之前,先对数据进行适当的预处理通常十分必要。例如,数据中心化,变量的观测值减去该变量观测值的平均值,就是主成分分析处理连续数据的必要步骤,并且在大多数标准实现中是默认应用的。另一种常用的数据转换方法则是缩放,将变量的每一个测量值乘以一个缩放因子,使得缩放后的变量的方差为1。缩放处理保证了每一个变量都产生等价的贡献,这对于那些包含具有高度可变范围或不同单位异构的数据集尤其重要,如患者临床数据,环境因素数据等。

 

当所有变量的单位都相同时,如在高通量测定中,则不建议进行方差标准化,因为这会导致强信号特征的收缩以及无信号特征的膨胀。根据具体的应用、输入数据的类型、使

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值