以下文章来源于简书,作者 biobin,文章已获原作者授权。
前言
关于
clusterProfiler
这个 R 包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做 GO 和 KEGG 的功能富集及其可视化。简单总结下用法,以后用时可直接找来用。
首先考虑一个问题:
clusterProfiler
做 GO 和 KEGG 富集分析的注释信息来自哪里?
GO 的注释信息来自 Bioconductor,提供了19个物种的 org 类型的 GO 注释信息,如下表所示。Bioconductor 中更多的注释包可参考下面这个链接,很乱,大多数我都不知道干啥用的。
- http://www.bioconductor.org/packages/release/data/annotation/
clusterProfiler
通过 KEGG 数据库的 API 来获取, https://www.kegg.jp/kegg/rest/keggapi.html。
首先是一个物种所有基因对应的 pathway 注释文件,比如人的:http://rest.kegg.jp/link/hsa/pathway。
其次还需要 pathway 的描述信息,比如人的:http://rest.kegg.jp/list/pathway/hsa。
关于 KEGG 数据库全部的物种及其简写(三个字母)如下列表(部分截图):
因此对于以上已有 pathway 注释的物种,只需要将物种简写输入给clusterProfiler
, 它会通过联网自动获取该物种的 pathway 注释信息。
以上都是有物种信息的情况,那么对于无物种信息的项目怎么办?
GO 可以通过读取外部的 GO 注释文件进行分析。关于基因的 GO 注释,interproscan
、eggnog-mapper
和blas2go
等软件都可以做,不过输出格式有些不同。clus