差异基因太多,如何挑选进行深入研究?

GO富集分析

通过对组学数据进行分析,我们通常会获得较多的差异基因。每个基因可能又具有多种不同的功能,仅依靠看似“散乱”的一个个基因并不足以诠释宏观、复杂的生物学问题。此外,对机制的深入研究也离不开从众多的差异基因中挑选关键靶标进行功能验证。上述种种均要求我们对筛选到的所有差异基因作进一步的注释、归类和整合。

进行GO富集分析是组学研究中在获得差异基因后的常见操作。GO富集分析是基于GO数据库对给定基因集进行功能注释和富集分析的方法,通过统计学算法(如超几何分布、Fisher精确检验等)计算给定基因集在不同GO term中的富集程度和显著性。借助GO富集分析,我们可以筛选显著富集的GO term,而GO term中的差异基因又能作为后续深入研究的靶标参考。

在这里,我们简单介绍一下GO数据库。GO(Gene Ontology)数据库是一个对不同物种中基因和基因产物的功能进行标准分类的国际体系,它按照生物过程(Biological Process,BP)、细胞组分(Cellular Component,CC)和分子功能(Molecular Function,MF)对基因进行分类注释。其中,BP、CC和MF属于一级分类(Level1),往下又进一步划分不同层级(Level),Level数字越大,功能描述越详细。GO term是GO数据库的分类单元,一个基因对应着一个或多个GO term。更详细的介绍,请点击链接http://www.geneontology.org。

Gene Ontology

接下来,我们重点讲解如何使用康测云分析平台做GO富集分析。

康测“四位一体”的云分析平台

首先,请输入网址http://www.seqcloud.cc:8888,填写信息进行登录。首次使用康测云分析平台的客户可以联系地区经理获取登录信息。用户名为客户手机号,初始密码为123456

康测云分析平台登录界面

进入首页,点击页面上方“云工具”选项。随后,选择“GO富集分析”。

云工具

GO富集分析工具

康测云分析平台上各类组学分析工具已超过100种,并且仍在不断更新中。客户可以通过工具“涉及的组学”、“类型”或者“名称”实现快速查找,操作十分便捷!

工具快速查找

左侧的“使用指南”页面对GO富集分析工具的主要用途、使用方法和结果解读做了详细介绍。“输入数据预览”页面在导入数据后可查看,便于数据检测和勘误。右侧的“参数设置”页面可进行文件输入和参数调节。“常见问题”页面则解答了文件输入、生成和下载过程中可能遇到的问题。最后,对于GO富集分析的结果,康测云分析平台提供三种不同的可视化方式供客户选择,分别是气泡图、柱状图和有向无环图所有结果均可在“结果图片预览”页面进行查看和下载。模块间分界清晰、条理分明,极大地方便了客户学习和使用

GO富集分析操作页面

GO富集分析,“参数设置”十分关键。

1.任务ID由康测云分析平台自动生成,无需填写。如果分析需要耗费较长时间,系统会第一时间给出提示。客户可以在“云任务”中实时追踪任务状态。康测云分析平台支持一批数据多工具调用,节省客户科研时间。此外,客户可以在“云工单”中随时提交工具使用过程中遇到的问题和工具修改建议

2.用于GO富集分析的数据表通常只含GeneID。GeneID可以来自Ensembl或NCBI数据库。康测云分析平台提供“示例文件”用于练习和格式参考。针对具体项目,则需点击“搜索图标”进入“文件管理”,随后点击“上传文件”。上传成功的文件可以在data文件夹中进行查找,接着选择用于GO富集分析的数据表,点击“确定”,就可以在左侧页面进行数据预览了。需要特别注意的是输入文件应为制表符(Tab键)分隔的文本文件。若发现文件显示乱码,则需要用“表格格式转换”工具进行转换。

文件输入

3.选择对应物种的参考基因组版本。康测云分析平台提供多物种多版本数据信息供客户选择。并且基因组数据库仍在不断更新中

勾选对应物种信息

4.根据需要展示心仪数量的通路(按P值排序)。

选择展示通路的个数

5.筛选的P值大小,展示的Term字体大小以及图片大小均可自主调节

P值、Term字体、图片大小均可调节

6.康测云分析平台提供2种高频使用软件Kobas和clusterProfiler用于GO富集分析结果的可视化。Kobas收录的物种信息相对全(五千多种),并提供Web版或本地版供选择。而R包clusterProfiler支持多种富集分析(GO、KEGG、GSEA等)以及GeneID转换,绘图便捷

可视化软件选择

7.康测云分析平台提供三种不同的可视化结果供客户选择,分别是气泡图、柱状图和有向无环图

三种可视化结果

不管是用Kobas还是clusterProfiler绘制气泡图,都可以根据需要选择是否进行分面绘制所谓分面绘制即是按照“BP”、“CC”和“MF”对term进行分类Kobas绘制的气泡图:横坐标是-log10(P value),纵坐标是每个term的名称。每个气泡代表着对应的term,气泡越靠右(横坐标越大)则表示该term越显著。气泡越大则表示该term中富集到的基因数量(Input number)越多。气泡颜色越红则表示该term的富集因子(Rich factor)越大。

ClusterProfiler绘制的气泡图:横坐标是GeneRatio,纵坐标是每个term的名称。每个气泡代表着对应的term,气泡越靠右(横坐标越大)则表示该term富集到的基因在给定基因集中的占比越大。气泡越大则表示该term中富集到的基因数量(Count)越多。气泡颜色越红则表示该term越显著。

clusterProfiler绘制的气泡图

Kobas绘制的柱状图:横坐标是每个term的名称,纵坐标是对应term富集到的基因数量。不同的颜色代表不同的一级分类,红色代表BP,绿色代表CC,蓝色代表MF。

Kobas绘制的柱状图

ClusterProfiler绘制的柱状图:可根据需要选择是否进行分面绘制。横坐标是每个term中富集到的基因数量(Count),纵坐标是对应term的名称。颜色越红则表示P值(校正后)越小,该term越显著。

clusterProfiler绘制的柱状图

不管是用Kobas还是clusterProfiler绘制有向无环图,都需要先选择对应的一级分类(BP、CC、MF)。在有向无环图中,通常将显著性排名靠前的GO term设置为矩形(一般取前十),其它GO term设置为椭圆形。颜色越红则表示该term越显著。矩形/椭圆中的文字,第一行是GO编号,第二行是GO term的描述信息。康测云分析平台支持客户个性化设计、自主程度高。大家快来康测云分析平台上尝试一番吧~

绘制有向无环图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值