基因组变异位点注释
安装工作流程所需的biconductor
包
source("http://bioconductor.org/workflows.R")
workflowInstall("variants")
背景
VariantAnnotation包能够有效的从Variant Calling Format(VCF)文件读取部分或所有内容。
这些文本文件包括元信息行(meta-information lines),标题行(header line)和数据行(data lines),其中数据行每一行都含有基因组位置信息。这类格式同样包含每个位置上样本的基因型信息。更多该文件相关的信息可以看VCF specs
配置
本文所介绍的工作流程需要一些Biocondutor的包,下面几节会仔细介绍每个包的具体用法。
library(VariantAnnotation)
library(cgdv17)
library(org.Hs.eg.db)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(BSgenome.Hsapiens.UCSC.hg19)
library(PolyPhen.Hsapiens.dbSNP131)
可以用biocLite
安装那些未安装的包
source("https://bioconductor.org/biocLite.R")
biocLite("mypackage")
探索TRPV基因家族的变异位点
本工作流程着眼于17号染色体上Transient Receptor Potential Vanilloid (TRPV)基因家族的变异位点。样本数据来自于Bioconductor的cgdv17实验数据包,内部包含46个17号染色体上的完整的基因组多样性面板数据(pannel data).如果想知道这些数据是如何组织的信息,可以查看包的小品文。
browseVignettes("cgdv17")
我们所使用的包中的VCF文件,是CEU群体其中一个17号染色体的子集。
library(VariantAnnotation)
library(cgdv17)
file <- system.file("vcf", "NA06985_17.vcf.gz", package = "cgdv17")
检查VCF文件的标题数据
为了大致了解该文件有哪些数据,我们可以查看标题部分。scanVcfHeader()
解析文件的标题部分,将解析的内容存入VCFH