云平台教程 | 手把手教你主成分分析PCA的可视化

·  爱基百客云平台小工具使用

    1.1 爱基百客云平台之PCA分析

    1.2 PCA分析原理

    1.3 参数设置

    1.4 任务查看

    1.5 结果

         1.5.1 PCA图

01

爱基百客云平台小工具使用

首先,打开爱基百客官网:http://www.igenebook.com;点击菜单栏最右侧“云平台”按钮。

图片

弹出云平台界面(下图),输入账号、密码和验证码方可登录;进入云平台,可以轻松实现多种组学数据的分析和可视化,实现真正的“零代码、无门槛、操作简单”!

图片

登陆后,如下图,我们进入到小工具专栏。当前云平台已上线了32款小工具供大家使用,包括基础绘图,高级绘图,差异检验,聚类分析,序列处理等子模块,本着用户至上的理念,平台小工具将会持续更新维护,积极接受用户的反馈和意见。

图片

1.1 

爱基百客云平台之PCA分析

PCA(主成分分析)是一种广泛使用的数据降维技术,它在多个领域都有重要的意义和应用,用于从数据集中提取最重要的特征。它通过正交线性变换将数据从原始空间转换到新的空间,这个新空间由几个主成分组成,这些主成分在新的空间中具有最大的方差。在基因表达数据分析中,PCA可以帮助研究者识别样本之间的相似性和差异,以及发现基因表达模式。在基因组学中,PCA可以用于分析大规模的基因组数据,帮助识别与疾病相关的基因。

1.2 

PCA分析原理图

1. 数据准备: 在进行PCA之前,数据应该进行中心化处理(即每个变量的均值被设为0)。

2. 标准化尽管中心化可以减少均值的影响,但在某些情况下,你可能还需要对数据进行标准化,即将每个变量的标准差设为1。

3. 计算协方差矩阵计算每个变量的协方差矩阵,这是PCA分析的基础。协方差矩阵描述了每个变量与其他变量之间的关系

图片

4. 计算特征值和特征向量: 通过求解协方差矩阵的特征值和特征向量来找到主成分。特征值表示每个主成分的方差,而特征向量描述了该主成分在原始数据空间中的方向。

5. 选择主成分: 根据特征值选择主成分。通常,我们会保留特征值占总特征值之和的一定比例(例如,95%)的主成分。而PCA图主要是应用了前2~3个主成分在二维或者三维平面对观测数据进行可视化。

爱基百客云平台提供了PCA分析小工具(点击底部阅读原文,即可直达)。

下面我们进行PCA分析实操练习。

首先点击小工具PCA分析。

图片

右侧的工具介绍对PCA分析小工具的主要用途,使用方法以及结果解读做了详细的说明。左侧是必要的输入文件和参数选项。任务名称和任务编号系统会自动生成。后面可用于记录查看具体的任务。小工具提供了示例文件给用户做测试分析。同时,该页面还提供了一些常用参数调节选项。您也可进行自定义,后面将详细介绍。输出名自定义,默认Result。

图片

1.3 

参数设置

输入文件:支持txt(制表符分隔)文本文件,以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。

输入文件需包含基因表达文件和分组文件两个文件。其中表达量文件第一行为样本信息,第一列为基因信息。如下表所示:

图片

分组文件包含两列,第一列为样本信息,第二列为组别信息。不加表头。如下表所示:

图片

如果文件已经上传过,您可以直接点击选择按钮找到需要的文件勾选确定,无须再次上传。

你可以选择是否显示样本名;另外,可以自定义是否添加分组环以及分组环的透明度。散点大小,字体大小;另外可以根据自己的喜欢选择不同的色系,输出名自定义即可。

填写好上述所有的参数后,点击提交即可。

1.4 

任务查看

您可在任务管理栏中查看任务的运行情况和结果。默认情况下新任务将会在最上方展示。也可通过任务名、任务编码、日期点击查询,找到需要的任务。如下图:当状态成功时,表示任务成功结束。

图片

点击下载按钮可直接打包下载全部结果。点击查看按钮可在线查看结果。

图片

您可在在线查看结果后选择是否下载保存。另外如果结果较多时,结果展示区还可通过点击左侧或右侧的箭头进行图片切换。您可挑选自己感兴趣的结果图片进行下载保存。

图片

1.5 

结果

输出结果包含pdf格式和png格式的PCA图。

1.5.1 

PCA图

图片

PCA图的两个轴代表数据的主要变异方向。PC1通常是数据方差最大的轴,而PC2通常是第二大的。在PCA图中,数据点之间的距离可以反映原始数据集中观测值之间的相似度。距离越近的点表示它们在原始数据中的相似度越高。如果数据点在某些区域聚集在一起,这可能表明原始数据中存在聚类或分组。通过PCA图可以观察不同组(如不同实验条件、不同治疗群体等)之间是否在主成分轴上有所分离。如果某些组在PC1和PC2上距离较远,这表明这些组之间存在显著差异。

另外,样本在图中的分布也可以帮助识别异常值或离群点。在PCA图中,异常值可能会远离其他点,这可以用来识别潜在的异常或错误数据。

图片

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值