TomatoSCI分析日记—主坐标分析(PCoA)

        今天要说的是PCoA (Principal Coordinates Analysis),即主坐标分析,也是一种降维分析方法。与t-SNE类似,可以简单地看为是一种聚类,但其更偏向于生态领域的应用,用于探究样品之间的物种组成相似性。好了,它与t-SNE的差异我们文末再说,我们先看一下核心思路和实例。


01 PCoA的核心思想

        PCoA是通过比较样本之间的相似性来帮助我们更好地理解数据。想象一下,如果我们有一组样本,每个样本都有自己的特点,比如不同的物种组成。我们基于这些数据可以计算出每个样本之间的“距离”(比如欧氏距离或Bray-Curtis距离),这种距离可以反映它们有多相似或多不同。

        然后,PCoA会把这些“距离”转化为一个坐标系中的点。这个坐标系就像一个地图,每个点代表一个样本。如果两个样本之间的距离很近,这表示它们很相似;反之,如果它们在地图上距离很远,说明它们差异较大。这样,我们就能直观地看到哪些样本更相似,哪些样本有显著差异。


02 PCoA案例

        图1A是我们拿到手的一份数据,代表的是每一个站点的不同物种的个数,图1B是站位的一个归属,我们可以把不同分组看作不同区域。当然如果站位没有归属的话也是可以的,那就相当于探索哪些站点的组成是相似的。

        在结果的可视化方面,基于本数据站位有分组的情况,我们需要看两项内容:PCoA1和PCoA2百分比之和(上限为100%,越高越好,表示的是数据变异程度);同组站位在同一置信区间(圆圈)内,证明组成类似。

        而结果往往分上(图2)、中(图3)、下(图4)三等。上等是百分比够高、点位分得开;中等是百分比稍低,但点位也分得开;下等是百分比低、点位分不开。


03 PCoA与t-SNE的差异

  1. PCoA通常用与生态分析,比较样品/站位相似性;t-SNE则更像是一种分类方法,将一堆数据按照特征进行分类。
  2. PCoA需要参考轴的方差贡献;而t-SNE则无该指标,只关注聚类情况。

TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。

在R语言中,坐标分析(Principal Coordinates Analysis,简称PCoA)通常用于生物统计学中的样品聚类,特别是在生态学研究中,它可以帮助我们理解样本间的相似性和差异性。然而,在应用PCoA之前,确实需要对性状数据进行一些预处理: 1. **数据准备**:首先,你需要有一个包含所有样本的矩阵或数据框,其中每一列代表一个性状,每一行对应一个个体。数据应该是数值型的,并且最好是中心化(即减去均值)和标准化(除以标准差),以便消除量纲影响和个体间尺度的差异。 2. **检查数据质量**:确认数据无缺失值,异常值(如离群点)可能会影响结果,需要适当处理。有时候也需要检查是否存在相关性极高以至于会破坏PCA的假设的情况。 3. **因子分析或中心化协方差矩阵**:如果数据呈现多重共线性或其他复杂的关系,可以先通过因子分析(Factor Analysis)提取少数几个能解释大部分变异性的因子,然后使用因子得分作为新变量进行PCoA。对于连续性数据,也可以直接计算协方差矩阵。 4. **执行PCoA**:使用`cmdscale()`函数,它可以接受一个基于欧氏距离或相关系数的标准距离矩阵作为输入。这一步会产生一组新的坐标轴,也就是坐标,这些坐标轴按照性状变异的方向排列。 ```R library vegan) # 假设data是一个中心化的样本数据矩阵 dist_matrix <- dist(data, method = "euclidean") # 或者用cor(data)得到相关系数矩阵 pcoa_results <- cmdscale(dist_matrix, k = num_dimensions) # num_dimensions是你想要保留的坐标数 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值