使用tabix创建索引并获取染色体区间信息

高通量测序产生的存放大量数据的文件往往十分庞大,即使是压缩文件,也有几十G到几百G,这样的文件获取其中某一区间信息的时候使用常用的Linux命令,例如grep awk等将非常耗时,这个时候,我们可以使用一些工具来创建索引并加快这个过程。

对于那些排序好的包含染色体号及位置信息的文件,常见的VCF文件/Bam文件/GFF文件/Bed文件等,我们可以使用一些特殊工具例如samtools index/bcftools index等去创建索引,如下所示

#为排序好且使用bgzip压缩的vcf文件建立索引
bcftools index -t foo.vcf.gz
#为bam文件创建索引
samtools index -t foo.bam

这些命令事实上就是调用了tabix进行的索引创建,针对那些更加一般的包含染色体号和位置信息的文件,我们就可以使用tabix去建立索引了。

如下图所示

#文件示例
$zcat tabix_test.gz|head
1	13273	G	C
1	13289	C	T
1	13372	G	C
1	13418	G	A
1	14610	T	C
1	14653	C	T
1	14673	G	C
1	14677	G	A
1	14699	C	G
1	14717	G	A

建立索引

tabix -f -s 1 -b 2 -e 2 -c Chrom tabix_test.gz

#-s 为染色体号的列,从1开始计算
#-b 为具体位置的开始列
#-e 为具体位置的结束列,这里开始于结束时同一列
# -c 为忽略以某个标识开头的行
# -f 覆盖已经有的索引

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值