PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。在生物信息分析中,PCA常用于分析不同样本之间的相互关系,可以基于表达量或者SNP突变类型进行分析。
R语言是一门专门针对统计绘图等需求设计的编程语言,在R语言中,内置了PCA分析的函数prcomp。直接调用这个函数可快速针对一组数据进行PCA分析。配合ggplot2等绘图包,可以方便的生成PCA分析可视化结果。
以下是以一个真实数据集为例,为大家演示如何绘制PCA图--该数据共包含300个样品的转录本表达量数据。
读取数据
原始数据结构如下图,第一列为基因ID,第五列及以后为各个样本的表达量数据,数值以FPKM表示。
读取数据命令如下:
rawdata = read.csv('AllSample.genes_expression.csv',header = T)