这期推荐在线基因功能富集分析(g:Profiler – a web server for functional enrichment analysis and conversions of gene lists),下面我们就看看怎么来实现吧!
简 介
g:Profiler是一个可靠的和最新的功能富集分析工具,支持各种证据类型,标识符类型和生物体。该工具集集成了包括Gene Ontology、KEGG和TRANSFAC在内的多个数据库,提供了一个全面而深入的基因列表分析。还提供交互式和直观的用户界面,并支持有序查询和自定义统计背景,以及其他设置。g:Profiler提供了多个可编程接口来访问其功能。这些可以很容易地集成到自定义工作流和外部工具中,使它们成为想要开发自己的解决方案的研究人员的宝贵资源。g:Profiler自2007年以来一直可用,用于分析数百万个查询。通过维护自2015年以来所有过去数据库版本的工作版本,实现了研究的可重复性和透明度。g:Profiler支持849种物种,包括脊椎动物,植物,真菌,昆虫和寄生虫,并可以分析任何生物体通过用户上传自定义注释文件。在这篇更新的文章中,介绍了一种新的过滤方法,突出显示基因本体驱动术语,伴随着新的图形可视化,为重要的基因本体术语提供了更广泛的上下文。作为一个领先的富集分析和基因列表互操作性服务。
g:GOSt
对输入基因列表进行功能富集分析,也称为过度代表性分析(ORA)或基因集富集分析。它将基因映射到已知的功能信息源,并检测统计上显著丰富的术语。我们定期检索来自Ensembl数据库和真菌、植物或后生动物基因组特定版本的数据,以及来自WormBase parasite的寄生虫特定数据。除了基因本体,我们还包括来自KEGG Reactome和WikiPathways的路径;miRNA靶点来自miRTarBase,调控基序匹配来自TRANSFAC;来自人蛋白图谱的组织特异性;来自CORUM的蛋白质复合物和来自human Phenotype Ontology的人类疾病表型。g:GOSt支持近500种生物,并接受数百种标识符类型。
我们点击 random example 可以看到 Query 里面出现基因ID,右边同样可以选择一些参数,比如 物种,显著值,阈值等。
点击 Run query, 运行结果,可下载PNG格式
查看 Detailed Results , 点击 PNG 可下载图片:
点击 CSV 可以下载数据:
查看 GO Context, 可以看到树形图:
查看 Query Info, 可以看到每个query的信息:
g:Convert
可以在各种基因,蛋白质,微阵列探针和许多其他类型的命名空间之间进行转换。我们为60多个物种提供至少40种ID。人类支持的98种不同的命名空间包括Ensembl, Refseq, Illumina, Entrezgene和Uniprot标识符。所有的命名空间都是通过作为参考的Ensembl基因标识符进行匹配获得的。
选择g:Convert,可以转换不同的基因ID表示方法:
转换之后的ID文件是可以直接下载:
g:Orth
翻译生物体之间的基因标识符。我们根据从Ensembl数据库检索到的信息提供了同源基因映射。
选择g:Orth,运行例子,这里同样物种选择的是人和鼠:
结果文件可以直接下载:
g:SNPense
将人类SNP rs-code列表(例如rs7961894)映射到基因名称,接收染色体坐标并预测变异效应。只有与至少一个编码Ensembl基因的蛋白质重叠的变异才能进行定位。所有底层数据都是从Ensembl Variation数据中检索的。变异类型用颜色编码的变异结果术语集来描述,由序列本体定义并按严重性排序。只有那些与给定的rs编码相对应的效应才会被显示出来。显示的数字显示了不同效果的数量。
我们直接运行 Example query,会出现rs号:
之后点击 Run query, 就会看到结果,对每种突变类型使用不同的颜色标价,并且带有数量标签:
同时也可以通过R包gprofiler2来实现
软件包安装
if(require(gprofiler2))
install.packages("gprofiler2")
## 载入需要的程辑包:gprofiler2
g:GOSt
library(gprofiler2)
gostres <- gost(query = c("X:1000:1000000", "rs17396340", "GO:0005005", "ENSG00000156103", "NLRP1"),
organism = "hsapiens")
# The result is a named list where “result” is a data.frame with the enrichment analysis results
# and “meta” containing a named list with all the metadata for the query.
head(gostres$result)
## query significant p_value term_size query_size intersection_size
## 1 query_1 TRUE 4.998799e-02 1 3 1
## 2 query_1 TRUE 2.935154e-30 52 20 14
## 3 query_1 TRUE 4.737051e-18 240 20 13
## 4 query_1 TRUE 4.737051e-18 240 20 13
## 5 query_1 TRUE 1.524028e-14 614 20 14
## 6 query_1 TRUE 1.782228e-14 449 20 13
## precision recall term_id source
## 1 0.3333333 1.00000000 CORUM:6180 CORUM
## 2 0.7000000 0.26923077 GO:0048013 GO:BP
## 3 0.6500000 0.05416667 GO:0097485 GO:BP
## 4 0.6500000 0.05416667 GO:0007411 GO:BP
## 5 0.7000000 0.02280130 GO:0007169 GO:BP
## 6 0.6500000 0.02895323 GO:0007409 GO:BP
## term_name
## 1 PPP2R1A-PPP2R3B complex
## 2 ephrin receptor signaling pathway
## 3 neuron projection guidance
## 4 axon guidance
## 5 transmembrane receptor protein tyrosine kinase signaling pathway
## 6 axonogenesis
## effective_domain_size source_order parents
## 1 3383 1952 CORUM:0000000
## 2 21010 13115 GO:0007169
## 3 21010 19562 GO:0031175, GO:0048812
## 4 21010 2959 GO:0007409, GO:0097485
## 5 21010 2780 GO:0007167
## 6 21010 2958 GO:0048667, GO:0048812, GO:0061564
p <- gostplot(gostres, capped = FALSE, interactive = FALSE)
p
g:Convert
gconvert(query = c("REAC:R-HSA-3928664", "rs17396340", "NLRP1"), organism = "hsapiens",
target="ENSG", mthreshold = Inf, filter_na = TRUE)
## input_number input target_number target name
## 1 1 REAC:R-HSA-3928664 1.1 ENSG00000010810 FYN
## 2 1 REAC:R-HSA-3928664 1.10 ENSG00000133216 EPHB2
## 3 1 REAC:R-HSA-3928664 1.11 ENSG00000136238 RAC1
## 4 1 REAC:R-HSA-3928664 1.12 ENSG00000137575 SDCBP
## 5 1 REAC:R-HSA-3928664 1.13 ENSG00000149269 PAK1
## 6 1 REAC:R-HSA-3928664 1.14 ENSG00000154928 EPHB1
## 7 1 REAC:R-HSA-3928664 1.15 ENSG00000180370 PAK2
## 8 1 REAC:R-HSA-3928664 1.16 ENSG00000182580 EPHB3
## 9 1 REAC:R-HSA-3928664 1.17 ENSG00000196411 EPHB4
## 10 1 REAC:R-HSA-3928664 1.2 ENSG00000071051 NCK2
## 11 1 REAC:R-HSA-3928664 1.3 ENSG00000077264 PAK3
## 12 1 REAC:R-HSA-3928664 1.4 ENSG00000090776 EFNB1
## 13 1 REAC:R-HSA-3928664 1.5 ENSG00000101608 MYL12A
## 14 1 REAC:R-HSA-3928664 1.6 ENSG00000102606 ARHGEF7
## 15 1 REAC:R-HSA-3928664 1.7 ENSG00000108262 GIT1
## 16 1 REAC:R-HSA-3928664 1.8 ENSG00000108947 EFNB3
## 17 1 REAC:R-HSA-3928664 1.9 ENSG00000125266 EFNB2
## 18 2 1:10226118:10226118 2.1 ENSG00000054523 KIF1B
## 19 3 NLRP1 3.1 ENSG00000091592 NLRP1
## description
## 1 FYN proto-oncogene, Src family tyrosine kinase [Source:HGNC Symbol;Acc:HGNC:4037]
## 2 EPH receptor B2 [Source:HGNC Symbol;Acc:HGNC:3393]
## 3 Rac family small GTPase 1 [Source:HGNC Symbol;Acc:HGNC:9801]
## 4 syndecan binding protein [Source:HGNC Symbol;Acc:HGNC:10662]
## 5 p21 (RAC1) activated kinase 1 [Source:HGNC Symbol;Acc:HGNC:8590]
## 6 EPH receptor B1 [Source:HGNC Symbol;Acc:HGNC:3392]
## 7 p21 (RAC1) activated kinase 2 [Source:HGNC Symbol;Acc:HGNC:8591]
## 8 EPH receptor B3 [Source:HGNC Symbol;Acc:HGNC:3394]
## 9 EPH receptor B4 [Source:HGNC Symbol;Acc:HGNC:3395]
## 10 NCK adaptor protein 2 [Source:HGNC Symbol;Acc:HGNC:7665]
## 11 p21 (RAC1) activated kinase 3 [Source:HGNC Symbol;Acc:HGNC:8592]
## 12 ephrin B1 [Source:HGNC Symbol;Acc:HGNC:3226]
## 13 myosin light chain 12A [Source:HGNC Symbol;Acc:HGNC:16701]
## 14 Rho guanine nucleotide exchange factor 7 [Source:HGNC Symbol;Acc:HGNC:15607]
## 15 GIT ArfGAP 1 [Source:HGNC Symbol;Acc:HGNC:4272]
## 16 ephrin B3 [Source:HGNC Symbol;Acc:HGNC:3228]
## 17 ephrin B2 [Source:HGNC Symbol;Acc:HGNC:3227]
## 18 kinesin family member 1B [Source:HGNC Symbol;Acc:HGNC:16636]
## 19 NLR family pyrin domain containing 1 [Source:HGNC Symbol;Acc:HGNC:14374]
## namespace
## 1 REAC
## 2 REAC
## 3 REAC
## 4 REAC
## 5 REAC
## 6 REAC
## 7 REAC
## 8 REAC
## 9 REAC
## 10 REAC
## 11 REAC
## 12 REAC
## 13 REAC
## 14 REAC
## 15 REAC
## 16 REAC
## 17 REAC
## 18
## 19 ENTREZGENE,GENECARDS,HGNC,UNIPROT_GN,WIKIGENE
g:Orth
gorth(query = c("Klf4", "Sox2", "71950"), source_organism = "mmusculus",
target_organism = "hsapiens", numeric_ns = "ENTREZGENE_ACC")
## input_number input input_ensg ensg_number ortholog_name
## 1 1 Klf4 ENSMUSG00000003032 1.1.1 KLF4
## 2 2 Sox2 ENSMUSG00000074637 2.1.1 SOX2
## 3 3 71950 ENSMUSG00000012396 3.1.1 NANOG
## 4 3 71950 ENSMUSG00000012396 3.1.2 NANOGP8
## ortholog_ensg
## 1 ENSG00000136826
## 2 ENSG00000181449
## 3 ENSG00000111704
## 4 ENSG00000255192
## description
## 1 KLF transcription factor 4 [Source:HGNC Symbol;Acc:HGNC:6348]
## 2 SRY-box transcription factor 2 [Source:HGNC Symbol;Acc:HGNC:11195]
## 3 Nanog homeobox [Source:HGNC Symbol;Acc:HGNC:20857]
## 4 Nanog homeobox retrogene P8 [Source:HGNC Symbol;Acc:HGNC:23106]
g:SNPense
gsnpense(query = c("rs11734132", "rs4305276", "rs17396340", "rs3184504"))
## rs_id chromosome start end strand ensgs gene_names
## 1 rs4305276 2 240555596 240555596 + ENSG00000144504 ANKMY1
## 2 rs17396340 1 10226118 10226118 + ENSG00000054523 KIF1B
## 3 rs3184504 12 111446804 111446804 + ENSG00000111252 SH2B3
## 4 rs3184504 12 111446804 111446804 + ENSG00000204842 ATXN2
## variants.NMD_transcript_variant variants.intron_variant
## 1 9 57
## 2 2 22
## 3 3 3
## 4 3 3
## variants.missense_variant variants.non_coding_transcript_variant
## 1 0 18
## 2 0 0
## 3 12 0
## 4 12 0
Reference:
1. Reimand J , Arak T , Vilo J . g:Profiler--a web server for functional interpretation of gene lists (2011 update)[J]. Nucleic Acids Research,2011, 39(suppl):W307-W315.
2. Reimand J, Isserlin R, Voisin V, et al. Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap[J]. Nature Protocols, 2019, 14(2): 482-517.
号外号外,桓峰基因单细胞生信分析免费培训课程即将开始快来报名吧!
单细胞生信分析教程
桓峰基因公众号推出单细胞生信分析教程并配有视频在线教程,目前整理出来的相关教程目录如下:
SCS【4】单细胞转录组数据可视化分析 (Seurat 4.0)
SCS【6】单细胞转录组之细胞类型自动注释 (SingleR)
SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞
SCS【8】单细胞转录组之筛选标记基因 (Monocle 3)
SCS【9】单细胞转录组之构建细胞轨迹 (Monocle 3)
SCS【10】单细胞转录组之差异表达分析 (Monocle 3)
SCS【11】单细胞ATAC-seq 可视化分析 (Cicero)
SCS【12】单细胞转录组之评估不同单细胞亚群的分化潜能 (Cytotrace)
SCS【13】单细胞转录组之识别细胞对“基因集”的响应 (AUCell)
SCS【15】细胞交互:受体-配体及其相互作用的细胞通讯数据库 (CellPhoneDB)
SCS【16】从肿瘤单细胞RNA-Seq数据中推断拷贝数变化 (inferCNV)
SCS【17】从单细胞转录组推断肿瘤的CNV和亚克隆 (copyKAT)
SCS【18】细胞交互:受体-配体及其相互作用的细胞通讯数据库 (iTALK)
SCS【21】单细胞空间转录组可视化 (Seurat V5)
SCS【22】单细胞转录组之 RNA 速度估计 (Velocyto.R)
SCS【24】单细胞数据量化代谢的计算方法 (scMetabolism)
SCS【25】单细胞细胞间通信第一部分细胞通讯可视化(CellChat)
SCS【26】单细胞细胞间通信第二部分通信网络的系统分析(CellChat)
SCS【28】单细胞转录组加权基因共表达网络分析(hdWGCNA)
SCS【29】单细胞基因富集分析 (singleseqgset)
SCS【30】单细胞空间转录组学数据库(STOmics DB)
SCS【31】减少障碍,加速单细胞研究数据库(Single Cell PORTAL)
SCS【32】基于scRNA-seq数据中推断单细胞的eQTLs (eQTLsingle)
SCS【33】单细胞转录之全自动超快速的细胞类型鉴定 (ScType)
SCS【34】单细胞/T细胞/抗体免疫库数据分析(immunarch)
SCS【35】单细胞转录组之去除双细胞 (DoubletFinder)
桓峰基因,铸造成功的您!
未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,
敬请期待!!
桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/
桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/