VCF(Variant Call Format)文件是一种常用于存储基因组变异数据的文件格式。
bgzip和tabix是两款常用的工具,分别用于压缩VCF文件和为其建立索引。
1.使用bgzip
首先是要下载bgzip,但bgzip通常与tabix一起作为samtools软件包的一部分提供。可以从samtools的官方网站或源代码仓库下载并安装。
虽然我下载了samtools,但我发现我这里没有bgzip和tabix,所以需要自行下载。
#下载bgzip
conda install bgzip
#下载tabix
conda install tabix
但是很奇怪,我数据下载下来,发现它已经进行压缩了,我以为是已经进行过bgzip压缩了,因为普通的gz压缩和bgzip压缩后缀都是.gz,所以会有错觉。因此我收到了一条报错信息。
果不其然,它是gzip压缩,所以解决办法是:
解压后,重新使用bgzip压缩。
#使用gunzip解压
gunzip ENCFF534YXW.vcf.gz
使用bgzip压缩:
bgzip ENCFF534YXW.vcf
2.使用tabix
然后使用tabix将.vcf.gz文件转换为.tbi后缀的索引文件:
tabix -p vcf ENCFF534YXW.vcf.gz