RNA 39. SCI文章中在线基因功能富集分析(g:Profiler)

4ebc45d9d4f788e2c20d9f9cb4e8ffb9.png

这期推荐在线基因功能富集分析(g:Profiler – a web server for functional enrichment analysis and conversions of gene lists),下面我们就看看怎么来实现吧!

简                介

g:Profiler是一个可靠的和最新的功能富集分析工具,支持各种证据类型,标识符类型和生物体。该工具集集成了包括Gene Ontology、KEGG和TRANSFAC在内的多个数据库,提供了一个全面而深入的基因列表分析。还提供交互式和直观的用户界面,并支持有序查询和自定义统计背景,以及其他设置。g:Profiler提供了多个可编程接口来访问其功能。这些可以很容易地集成到自定义工作流和外部工具中,使它们成为想要开发自己的解决方案的研究人员的宝贵资源。g:Profiler自2007年以来一直可用,用于分析数百万个查询。通过维护自2015年以来所有过去数据库版本的工作版本,实现了研究的可重复性和透明度。g:Profiler支持849种物种,包括脊椎动物,植物,真菌,昆虫和寄生虫,并可以分析任何生物体通过用户上传自定义注释文件。在这篇更新的文章中,介绍了一种新的过滤方法,突出显示基因本体驱动术语,伴随着新的图形可视化,为重要的基因本体术语提供了更广泛的上下文。作为一个领先的富集分析和基因列表互操作性服务。

aec466c4f36730324ab00f210d32c713.png

  • g:GOSt

对输入基因列表进行功能富集分析,也称为过度代表性分析(ORA)或基因集富集分析。它将基因映射到已知的功能信息源,并检测统计上显著丰富的术语。我们定期检索来自Ensembl数据库和真菌、植物或后生动物基因组特定版本的数据,以及来自WormBase parasite的寄生虫特定数据。除了基因本体,我们还包括来自KEGG Reactome和WikiPathways的路径;miRNA靶点来自miRTarBase,调控基序匹配来自TRANSFAC;来自人蛋白图谱的组织特异性;来自CORUM的蛋白质复合物和来自human Phenotype Ontology的人类疾病表型。g:GOSt支持近500种生物,并接受数百种标识符类型。

我们点击 random example 可以看到 Query 里面出现基因ID,右边同样可以选择一些参数,比如 物种,显著值,阈值等。

e8a4c513824143452e1207fd2d7280e0.png

13804d949df8529a89f4d5617365b0ab.png

点击 Run query, 运行结果,可下载PNG格式

50b9fc26d6b9799e4663861549862c65.png

查看 Detailed Results , 点击 PNG 可下载图片:

c660dc8255a0f475071ee10fc76b54a4.png

1e5774c901a38a2f58baa7a42e1e3a0b.png

点击 CSV 可以下载数据:

ab42994902bc261076e2a8838607ea77.png

查看 GO Context, 可以看到树形图:

284f13554f293f517d1f4c8e7cbc3b3a.png

查看 Query Info, 可以看到每个query的信息:

e5d74244a22524c8842bf9c4f54db863.png

  • g:Convert

可以在各种基因,蛋白质,微阵列探针和许多其他类型的命名空间之间进行转换。我们为60多个物种提供至少40种ID。人类支持的98种不同的命名空间包括Ensembl, Refseq, Illumina, Entrezgene和Uniprot标识符。所有的命名空间都是通过作为参考的Ensembl基因标识符进行匹配获得的。

选择g:Convert,可以转换不同的基因ID表示方法:

0ef7f4a032a91723b8915b229827ca0b.png

转换之后的ID文件是可以直接下载:

2007b60b9bcc29d2104b247bf0df60d8.jpeg

  • g:Orth

翻译生物体之间的基因标识符。我们根据从Ensembl数据库检索到的信息提供了同源基因映射。

选择g:Orth,运行例子,这里同样物种选择的是人和鼠:

1ac2e9f5893183f9db8bacc7fdb0fa0a.png

结果文件可以直接下载:

bd5876f9428747bbe392c311dc5f903e.png

  • g:SNPense

将人类SNP rs-code列表(例如rs7961894)映射到基因名称,接收染色体坐标并预测变异效应。只有与至少一个编码Ensembl基因的蛋白质重叠的变异才能进行定位。所有底层数据都是从Ensembl Variation数据中检索的。变异类型用颜色编码的变异结果术语集来描述,由序列本体定义并按严重性排序。只有那些与给定的rs编码相对应的效应才会被显示出来。显示的数字显示了不同效果的数量。

573494e808b702cee82b3df3339eb4cf.png

我们直接运行 Example query,会出现rs号:

eac3181355e2fa12a2aa723784ae3437.png

之后点击 Run query, 就会看到结果,对每种突变类型使用不同的颜色标价,并且带有数量标签:

65b23af07fbada75c83cc1f497bebb09.png

18d60dc7103d65cc7c5efc22bbed982d.png

同时也可以通过R包gprofiler2来实现



软件包安装

if(require(gprofiler2))
  install.packages("gprofiler2")
## 载入需要的程辑包:gprofiler2

g:GOSt

library(gprofiler2)
gostres <- gost(query = c("X:1000:1000000", "rs17396340", "GO:0005005", "ENSG00000156103", "NLRP1"),
                organism = "hsapiens")

# The result is a named list where “result” is a data.frame with the enrichment analysis results
# and “meta” containing a named list with all the metadata for the query.
head(gostres$result)
##     query significant      p_value term_size query_size intersection_size
## 1 query_1        TRUE 4.998799e-02         1          3                 1
## 2 query_1        TRUE 2.935154e-30        52         20                14
## 3 query_1        TRUE 4.737051e-18       240         20                13
## 4 query_1        TRUE 4.737051e-18       240         20                13
## 5 query_1        TRUE 1.524028e-14       614         20                14
## 6 query_1        TRUE 1.782228e-14       449         20                13
##   precision     recall    term_id source
## 1 0.3333333 1.00000000 CORUM:6180  CORUM
## 2 0.7000000 0.26923077 GO:0048013  GO:BP
## 3 0.6500000 0.05416667 GO:0097485  GO:BP
## 4 0.6500000 0.05416667 GO:0007411  GO:BP
## 5 0.7000000 0.02280130 GO:0007169  GO:BP
## 6 0.6500000 0.02895323 GO:0007409  GO:BP
##                                                          term_name
## 1                                          PPP2R1A-PPP2R3B complex
## 2                                ephrin receptor signaling pathway
## 3                                       neuron projection guidance
## 4                                                    axon guidance
## 5 transmembrane receptor protein tyrosine kinase signaling pathway
## 6                                                     axonogenesis
##   effective_domain_size source_order                            parents
## 1                  3383         1952                      CORUM:0000000
## 2                 21010        13115                         GO:0007169
## 3                 21010        19562             GO:0031175, GO:0048812
## 4                 21010         2959             GO:0007409, GO:0097485
## 5                 21010         2780                         GO:0007167
## 6                 21010         2958 GO:0048667, GO:0048812, GO:0061564
p <- gostplot(gostres, capped = FALSE, interactive = FALSE)
p

0ae1bba659e8b6bb10e542e599791172.png

g:Convert

gconvert(query = c("REAC:R-HSA-3928664", "rs17396340", "NLRP1"), organism = "hsapiens",
         target="ENSG", mthreshold = Inf, filter_na = TRUE)
##    input_number               input target_number          target    name
## 1             1  REAC:R-HSA-3928664           1.1 ENSG00000010810     FYN
## 2             1  REAC:R-HSA-3928664          1.10 ENSG00000133216   EPHB2
## 3             1  REAC:R-HSA-3928664          1.11 ENSG00000136238    RAC1
## 4             1  REAC:R-HSA-3928664          1.12 ENSG00000137575   SDCBP
## 5             1  REAC:R-HSA-3928664          1.13 ENSG00000149269    PAK1
## 6             1  REAC:R-HSA-3928664          1.14 ENSG00000154928   EPHB1
## 7             1  REAC:R-HSA-3928664          1.15 ENSG00000180370    PAK2
## 8             1  REAC:R-HSA-3928664          1.16 ENSG00000182580   EPHB3
## 9             1  REAC:R-HSA-3928664          1.17 ENSG00000196411   EPHB4
## 10            1  REAC:R-HSA-3928664           1.2 ENSG00000071051    NCK2
## 11            1  REAC:R-HSA-3928664           1.3 ENSG00000077264    PAK3
## 12            1  REAC:R-HSA-3928664           1.4 ENSG00000090776   EFNB1
## 13            1  REAC:R-HSA-3928664           1.5 ENSG00000101608  MYL12A
## 14            1  REAC:R-HSA-3928664           1.6 ENSG00000102606 ARHGEF7
## 15            1  REAC:R-HSA-3928664           1.7 ENSG00000108262    GIT1
## 16            1  REAC:R-HSA-3928664           1.8 ENSG00000108947   EFNB3
## 17            1  REAC:R-HSA-3928664           1.9 ENSG00000125266   EFNB2
## 18            2 1:10226118:10226118           2.1 ENSG00000054523   KIF1B
## 19            3               NLRP1           3.1 ENSG00000091592   NLRP1
##                                                                          description
## 1  FYN proto-oncogene, Src family tyrosine kinase [Source:HGNC Symbol;Acc:HGNC:4037]
## 2                                 EPH receptor B2 [Source:HGNC Symbol;Acc:HGNC:3393]
## 3                       Rac family small GTPase 1 [Source:HGNC Symbol;Acc:HGNC:9801]
## 4                       syndecan binding protein [Source:HGNC Symbol;Acc:HGNC:10662]
## 5                   p21 (RAC1) activated kinase 1 [Source:HGNC Symbol;Acc:HGNC:8590]
## 6                                 EPH receptor B1 [Source:HGNC Symbol;Acc:HGNC:3392]
## 7                   p21 (RAC1) activated kinase 2 [Source:HGNC Symbol;Acc:HGNC:8591]
## 8                                 EPH receptor B3 [Source:HGNC Symbol;Acc:HGNC:3394]
## 9                                 EPH receptor B4 [Source:HGNC Symbol;Acc:HGNC:3395]
## 10                          NCK adaptor protein 2 [Source:HGNC Symbol;Acc:HGNC:7665]
## 11                  p21 (RAC1) activated kinase 3 [Source:HGNC Symbol;Acc:HGNC:8592]
## 12                                      ephrin B1 [Source:HGNC Symbol;Acc:HGNC:3226]
## 13                        myosin light chain 12A [Source:HGNC Symbol;Acc:HGNC:16701]
## 14      Rho guanine nucleotide exchange factor 7 [Source:HGNC Symbol;Acc:HGNC:15607]
## 15                                   GIT ArfGAP 1 [Source:HGNC Symbol;Acc:HGNC:4272]
## 16                                      ephrin B3 [Source:HGNC Symbol;Acc:HGNC:3228]
## 17                                      ephrin B2 [Source:HGNC Symbol;Acc:HGNC:3227]
## 18                      kinesin family member 1B [Source:HGNC Symbol;Acc:HGNC:16636]
## 19          NLR family pyrin domain containing 1 [Source:HGNC Symbol;Acc:HGNC:14374]
##                                        namespace
## 1                                           REAC
## 2                                           REAC
## 3                                           REAC
## 4                                           REAC
## 5                                           REAC
## 6                                           REAC
## 7                                           REAC
## 8                                           REAC
## 9                                           REAC
## 10                                          REAC
## 11                                          REAC
## 12                                          REAC
## 13                                          REAC
## 14                                          REAC
## 15                                          REAC
## 16                                          REAC
## 17                                          REAC
## 18                                              
## 19 ENTREZGENE,GENECARDS,HGNC,UNIPROT_GN,WIKIGENE

g:Orth

gorth(query = c("Klf4", "Sox2", "71950"), source_organism = "mmusculus",
      target_organism = "hsapiens", numeric_ns = "ENTREZGENE_ACC")
##   input_number input         input_ensg ensg_number ortholog_name
## 1            1  Klf4 ENSMUSG00000003032       1.1.1          KLF4
## 2            2  Sox2 ENSMUSG00000074637       2.1.1          SOX2
## 3            3 71950 ENSMUSG00000012396       3.1.1         NANOG
## 4            3 71950 ENSMUSG00000012396       3.1.2       NANOGP8
##     ortholog_ensg
## 1 ENSG00000136826
## 2 ENSG00000181449
## 3 ENSG00000111704
## 4 ENSG00000255192
##                                                          description
## 1      KLF transcription factor 4 [Source:HGNC Symbol;Acc:HGNC:6348]
## 2 SRY-box transcription factor 2 [Source:HGNC Symbol;Acc:HGNC:11195]
## 3                 Nanog homeobox [Source:HGNC Symbol;Acc:HGNC:20857]
## 4    Nanog homeobox retrogene P8 [Source:HGNC Symbol;Acc:HGNC:23106]

g:SNPense

gsnpense(query = c("rs11734132", "rs4305276", "rs17396340", "rs3184504"))
##        rs_id chromosome     start       end strand           ensgs gene_names
## 1  rs4305276          2 240555596 240555596      + ENSG00000144504     ANKMY1
## 2 rs17396340          1  10226118  10226118      + ENSG00000054523      KIF1B
## 3  rs3184504         12 111446804 111446804      + ENSG00000111252      SH2B3
## 4  rs3184504         12 111446804 111446804      + ENSG00000204842      ATXN2
##   variants.NMD_transcript_variant variants.intron_variant
## 1                               9                      57
## 2                               2                      22
## 3                               3                       3
## 4                               3                       3
##   variants.missense_variant variants.non_coding_transcript_variant
## 1                         0                                     18
## 2                         0                                      0
## 3                        12                                      0
## 4                        12                                      0

Reference:

1. Reimand J ,  Arak T ,  Vilo J . g:Profiler--a web server for functional interpretation of gene lists (2011 update)[J]. Nucleic Acids Research,2011, 39(suppl):W307-W315.

2. Reimand J, Isserlin R, Voisin V, et al. Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap[J]. Nature Protocols, 2019, 14(2): 482-517.

号外号外,桓峰基因单细胞生信分析免费培训课程即将开始快来报名吧!


单细胞生信分析教程

桓峰基因公众号推出单细胞生信分析教程并配有视频在线教程,目前整理出来的相关教程目录如下:

Topic 6. 克隆进化之 Canopy

Topic 7. 克隆进化之 Cardelino

Topic 8. 克隆进化之 RobustClone

SCS【1】今天开启单细胞之旅,述说单细胞测序的前世今生

SCS【2】单细胞转录组 之 cellranger

SCS【3】单细胞转录组数据 GEO 下载及读取

SCS【4】单细胞转录组数据可视化分析 (Seurat 4.0)

SCS【5】单细胞转录组数据可视化分析 (scater)

SCS【6】单细胞转录组之细胞类型自动注释 (SingleR)

SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞

SCS【8】单细胞转录组之筛选标记基因 (Monocle 3)

SCS【9】单细胞转录组之构建细胞轨迹 (Monocle 3)

SCS【10】单细胞转录组之差异表达分析 (Monocle 3)

SCS【11】单细胞ATAC-seq 可视化分析 (Cicero)

SCS【12】单细胞转录组之评估不同单细胞亚群的分化潜能 (Cytotrace)

SCS【13】单细胞转录组之识别细胞对“基因集”的响应 (AUCell)

SCS【14】单细胞调节网络推理和聚类 (SCENIC)

SCS【15】细胞交互:受体-配体及其相互作用的细胞通讯数据库 (CellPhoneDB)

SCS【16】从肿瘤单细胞RNA-Seq数据中推断拷贝数变化 (inferCNV)

SCS【17】从单细胞转录组推断肿瘤的CNV和亚克隆 (copyKAT)

SCS【18】细胞交互:受体-配体及其相互作用的细胞通讯数据库 (iTALK)

SCS【19】单细胞自动注释细胞类型 (Symphony)

SCS【20】单细胞数据估计组织中细胞类型(Music)

SCS【21】单细胞空间转录组可视化 (Seurat V5)

SCS【22】单细胞转录组之 RNA 速度估计 (Velocyto.R)

SCS【23】单细胞转录组之数据整合 (Harmony)

SCS【24】单细胞数据量化代谢的计算方法 (scMetabolism)

SCS【25】单细胞细胞间通信第一部分细胞通讯可视化(CellChat)

SCS【26】单细胞细胞间通信第二部分通信网络的系统分析(CellChat)

SCS【27】单细胞转录组之识别标记基因 (scran)

SCS【28】单细胞转录组加权基因共表达网络分析(hdWGCNA)

SCS【29】单细胞基因富集分析 (singleseqgset)

SCS【30】单细胞空间转录组学数据库(STOmics DB)

SCS【31】减少障碍,加速单细胞研究数据库(Single Cell PORTAL)

SCS【32】基于scRNA-seq数据中推断单细胞的eQTLs (eQTLsingle)

SCS【33】单细胞转录之全自动超快速的细胞类型鉴定 (ScType)

SCS【34】单细胞/T细胞/抗体免疫库数据分析(immunarch)

SCS【35】单细胞转录组之去除双细胞 (DoubletFinder)

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/

cb76b3accd3a778259e2491107f60a41.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值