利用Bioconductor包进行基因组变异位点注释

最新推荐文章于 2023-04-05 21:41:32 发布

weixin_34277853

最新推荐文章于 2023-04-05 21:41:32 发布

阅读量1.6k

点赞数

原文链接：https://yq.aliyun.com/articles/650586

版权

基因组变异位点注释

安装工作流程所需的biconductor包

source("http://bioconductor.org/workflows.R")
workflowInstall("variants")

背景

VariantAnnotation包能够有效的从Variant Calling Format(VCF)文件读取部分或所有内容。
这些文本文件包括元信息行(meta-information lines)，标题行(header line)和数据行(data lines)，其中数据行每一行都含有基因组位置信息。这类格式同样包含每个位置上样本的基因型信息。更多该文件相关的信息可以看VCF specs

配置

本文所介绍的工作流程需要一些Biocondutor的包，下面几节会仔细介绍每个包的具体用法。

library(VariantAnnotation)
library(cgdv17)
library(org.Hs.eg.db)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(BSgenome.Hsapiens.UCSC.hg19)
library(PolyPhen.Hsapiens.dbSNP131)

可以用biocLite安装那些未安装的包

source("https://bioconductor.org/biocLite.R")
biocLite("mypackage")

探索TRPV基因家族的变异位点

本工作流程着眼于17号染色体上Transient Receptor Potential Vanilloid (TRPV)基因家族的变异位点。样本数据来自于Bioconductor的cgdv17实验数据包，内部包含46个17号染色体上的完整的基因组多样性面板数据（pannel data).如果想知道这些数据是如何组织的信息，可以查看包的小品文。

browseVignettes("cgdv17")

我们所使用的包中的VCF文件，是CEU群体其中一个17号染色体的子集。

library(VariantAnnotation)
library(cgdv17)
file <- system.file("vcf", "NA06985_17.vcf.gz", package = "cgdv17")

检查VCF文件的标题数据

为了大致了解该文件有哪些数据，我们可以查看标题部分。scanVcfHeader()解析文件的标题部分，将解析的内容存入VCFH

最低0.47元/天解锁文章

weixin_34277853

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
利用Bioconductor包进行基因组变异位点注释

基因组变异位点注释安装工作流程所需的biconductor包source("http://bioconductor.org/workflows.R")workflowInstall("variants")背景VariantAnnotation包能够有效的从Variant Calling Forma...
复制链接

扫一扫