基因注释资源(1)

T r a n s l a t e \mathscr Translate Translate from BioConductor:Genomic Annotation Resources

1.版本信息

R version: R version 3.5.0 (2018-04-23)
Bioconductor version: 3.7
Package version: 1.2.0

2. 引言

注释资源在Bioconductor项目中占很大比例[1]。此外,还有一系列可用的在线资源,可以使用特定的软件包访问。本演练将介绍这些资源中最受欢迎的资源,并提供一些有关如何使用它们的高级示例。

传统上,Bioconductor注释资源在分析结束时使用。在大量数据分析之后,注释将被解释性地用于了解最重要的结果。但是,它们越来越多地被用作起点,甚至作为中间步骤来帮助指导仍在进行中的研究。除此之外,作为注释的东西意味着什么也变得不像以前那么清晰。过去很明显,注释只是在进行了多项不同研究后建立的事物(例如基因产物的主要作用)。但是今天许多大型数据集都被社区处理,就像经典注释一样:作为额外比较的参考。

Bioconductor中注释正在进行的另一项变化是获得它们的方式。在过去,注释几乎完全作为单独的注释包存在[2],[3],[4]。今天的包仍然是一个巨大的注释来源。当前版本存储库包含八百多个注释包。此表总结了一些通常使用包访问的更重要的注释对象类:

Object Type Example Package Name Contents
TxDb TxDb.Hsapiens.UCSC.hg19.knownGene Transcriptome ranges for the known gene track of Homo sapiens, e.g., introns, exons, UTR regions.
OrgDb org.Hs.eg.db Gene-based information for Homo sapiens; useful for mapping between gene IDs, Names, Symbols, GO and KEGG identifiers, etc.
BSgenome BSgenome.Hsapiens.UCSC.hg19 Full genome sequence for Homo sapiens.
Organism.dplyr src_organism Collection of multiple annotations for a common organism and genome build.
AnnotationHub AnnotationHub Provides a convenient interface to annotations from many different sources; objects are returned as fully parsed Bioconductor data objects or as the name of a file on disk.

注释资源在Bioconductor项目中占很大比例[1]。此外,还有一系列可用的在线资源,可以使用特定的软件包访问。本演练将介绍这些资源中最受欢迎的资源,并提供一些有关如何使用它们的高级示例。

传统上,Bioconductor注释资源在分析结束时使用。在大量数据分析之后,注释将被解释性地用于了解最重要的结果。但是,它们越来越多地被用作起点,甚至作为中间步骤来帮助指导仍在进行中的研究。除此之外,作为注释的东西意味着什么也变得不像以前那么清晰。过去很明显,注释只是在执行了多项不同研究后已经建立的那些事物(例如主要角色)但是,尽管注释包的流行,注释也越来越多地从像biomaRt这样的Web服务中被删除[5],[6],[7]或来自AnnotationHub [8]。这两者都代表了注释数据的巨大资源。

部分由于快速发展的景观,目前在单个文档中不可能涵盖Bioconductor中存在的每种可能的注释甚至每种注释。因此,我们将在此处讨论最流行的注释资源,并以旨在揭示用于访问它们的常用模式的方式对其进行描述。希望拥有此信息的用户能够对如何查找和使用以后不可避免地添加的其他资源进行有根据的猜测。将涵盖的主题包括以下内容:

3.安装

在本章中,我们使用了几个Bioconductor包。您可以使用biocLite()安装它们:

    ## try http:// if https:// URLs are not supported
    source("https://bioconductor.org/biocLite.R")
             biocLite(c(`"AnnotationHub", "Homo.sapiens",
               "Organism.dplyr",
               -  "TxDb.Hsapiens.UCSC.hg19.knownGene",
               "TxDb.Hsapiens.UCSC.hg38.knownGene",
               "BSgenome.Hsapiens.UCSC.hg19", "biomaRt",
               "TxDb.Athaliana.BioMart.plantsmart22"))

已使用的部分将详细介绍已安装软件包的使用情况。

4.AnnotationHub的使用

学习注释资源的列表顶部是相对较新的AnnotationHub包[8]。创建AnnotationHub是为了为最终用户提供方便的访问点,以便查找大量不同的注释对象以供Bioconductor使用。AnnotationHub中的资源很容易被发现,并作为熟悉的Bioconductor数据对象呈现给用户。因为它是最近添加的,AnnotationHub允许访问类似对象的广泛注释,其中一些注释甚至可能在几年前才被认为是注释。要开始使用AnnotationHub,用户只需要加载包,然后创建一个本地AnnotationHub对象,如下所示:

## snapshotDate(): 2018-04-23
ah <- AnnotationHub()

第一次调用AnnotationHub时,它将在您的系统上创建一个缓存目录,并下载集线器当前内容的最新元数据。从那时起,每当您下载其中一个集线器数据对象时,它也会将这些文件缓存在本地目录中,这样,如果再次请求该信息,您将能够快速访问它。

AnnotationHub对象的show方法将告诉您当前可以使用该对象访问的资源数量,并提供最常见的数据类型的高级概述。

ah
## AnnotationHub with 44923 records
## # snapshotDate(): 2018-04-23 
## # $dataprovider: BroadInstitute, Ensembl, UCSC, ftp://ftp.ncbi.nlm.nih.go...
## # $species: Homo sapiens, Mus musculus, Drosophila melanogaster, Bos taur...
## # $rdataclass: GRanges, BigWigFile, FaFile, TwoBitFile, Rle, OrgDb, Chain...
## # additional mcols(): taxonomyid, genome, description,
## #   coordinate_1_based, maintainer, rdatadateadded, preparerclass,
## #   tags, rdatapath, sourceurl, sourcetype 
## # retrieve records with, e.g., 'object[["AH2"]]' 
## 
##             title                                               
##   AH2     | Ailuropoda_melanoleuca.ailMel1.69.dna.toplevel.fa   
##   AH3     | Ailuropoda_melanoleuca.ailMel1.69.dna_rm.toplevel.fa
##   AH4     | Ailuropoda_melanoleuca.ailMel1.69.dna_sm.toplevel.fa
##   AH5     | Ailuropoda_melanoleuca.ailMel1.69.ncrna.fa          
##   AH6     | Ailuropoda_melanoleuca.ailMel1.69.pep.all.fa        
##   ...       ...                                                 
##   AH63652 | phastCons46wayPrimates.UCSC.hg19.chrUn_gl000247.rds 
##   AH63653 | phastCons46wayPrimates.UCSC.hg19.chrUn_gl000248.rds 
##   AH63654 | phastCons46wayPrimates.UCSC.hg19.chrUn_gl000249.rds 
##   AH63655 | phastCons46wayPrimates.UCSC.hg19.chrX.rds           
##   AH63656 | phastCons46wayPrimates.UCSC.hg19
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值