利用Bioconductor包进行基因组变异位点注释

基因组变异位点注释

安装工作流程所需的biconductor

source("http://bioconductor.org/workflows.R")
workflowInstall("variants")

背景

VariantAnnotation包能够有效的从Variant Calling Format(VCF)文件读取部分或所有内容。
这些文本文件包括元信息行(meta-information lines),标题行(header line)和数据行(data lines),其中数据行每一行都含有基因组位置信息。这类格式同样包含每个位置上样本的基因型信息。更多该文件相关的信息可以看VCF specs

配置

本文所介绍的工作流程需要一些Biocondutor的包,下面几节会仔细介绍每个包的具体用法。

library(VariantAnnotation)
library(cgdv17)
library(org.Hs.eg.db)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(BSgenome.Hsapiens.UCSC.hg19)
library(PolyPhen.Hsapiens.dbSNP131)

可以用biocLite安装那些未安装的包

source("https://bioconductor.org/biocLite.R")
biocLite("mypackage")

探索TRPV基因家族的变异位点

本工作流程着眼于17号染色体上Transient Receptor Potential Vanilloid (TRPV)基因家族的变异位点。样本数据来自于Bioconductor的cgdv17实验数据包,内部包含46个17号染色体上的完整的基因组多样性面板数据(pannel data).如果想知道这些数据是如何组织的信息,可以查看包的小品文。

browseVignettes("cgdv17")

我们所使用的包中的VCF文件,是CEU群体其中一个17号染色体的子集。

library(VariantAnnotation)
library(cgdv17)
file <- system.file("vcf", "NA06985_17.vcf.gz", package = "cgdv17")

检查VCF文件的标题数据

为了大致了解该文件有哪些数据,我们可以查看标题部分。scanVcfHeader()解析文件的标题部分,将解析的内容存入VCFH

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值