用了这么多年的PCA可视化竟然是错的!!!

14 篇文章 9 订阅

本文启发于上周开的单细胞转录组课程,本次课程由资深单细胞算法研究者戴老师主讲,深入浅出,各部分分析原理从理论到应用层面解释透彻,最新流程,最新代码,绝对值得学习。课程尚未结束,我就迫不及待向一位未能安排出时间参加此课程的老友及时安利了视频课。

言归正传,介绍培训课程的一张幻灯片:很多PCA可视化结果都是不合适的。

PCA或PCoA是常用的降维工具,之前有几篇文章介绍PCA的原理和可视化。

默认PCA/PCoA软件输出的图通常为正方形或立方体,比较常见的2维PCA可视化图的长宽比是1:1。虽然常见,但这是错误的

下面这张图展示了一套模拟的两簇高斯分布数据的PCA结果展示,Figure a和b是错误的长宽比,结果看上去有4簇。Figure c和d是正确的长宽比,d中的颜色是正确的分组关系。

image

实际上,PCA图的长宽比应该与各个维度的特征值的比值一致。因为特征值反应各个主成分所解释的原始数据的变异度(方差),需要保证在不同的主成分轴上,解释的单位长度相同,所以长宽比也要有讲究。

如果用基于ggplot2的工具绘图(ggplot2高效实用指南 (可视化脚本、工具、套路、配色)),处理起来很简单,加一个coord_fixed(1)即可。

借用PCA主成分分析实战和可视化 附R代码和测试数据中的代码

fviz_pca_ind(pca, col.ind=data_t$conditions, mean.point=F,

    addEllipses = T, legend.title="Groups") +

    coord_fixed(1) # 关键的增加

If the relationship between the height and the width of a plot is arbitrary, an adequate picture of the data cannot be attained. Two-dimensional PCA plots with equal height and width are misleading but frequently encountered because popular software programs for analyzing biological data often produce square (2D) or cubical (3D) graphics by default. Instead, the height-to-width ratio of a PCA plot should be consistent with the ratio between the corresponding eigenvalues. Because eigenvalues reflect the variance in coordinates of the associated PCs, you only need to ensure that in the plots, one “unit“ in direction of one PC has the same length as one “unit” in direction of another PC. (If you use ggplot2 R package for generating plots, adding + coord_fixed(1) will ensure a correct aspect ratio.)

参考文献:https://doi.org/10.1371/journal.pcbi.1006907.g002

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信宝典

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值