shell高级技巧：提取vcf文件中一个contig

最新推荐文章于 2024-05-25 21:43:54 发布

weixin_34344677

最新推荐文章于 2024-05-25 21:43:54 发布

阅读量552

点赞数

文章标签： shell 前端 ViewUI

原文链接：https://yq.aliyun.com/articles/650529

版权

这是一个很小众的需求。大部分变异检测都是基于组装质量比较高的基因组，而不是那种初步拼接的contig。

由于初步拼接的参考序列通常会有成千上万个contig序列，也就导致在VCF的头文件的##contig=<ID=xxx,length=xxx>部分会有成千上万个contig，将这个文件加载到IGV时, IGV会去解析VCF，这将会是非常缓慢的过程，最好的策略就是只提取其中一个contig查看。

一开始，我想到的是这个方法，直接用bcftools去提取目标contig

bcftools view some_variants.bcf contig_1

但是，你会发现HEADER部分还是会保留原来的信息。怎么办呢？

我们这里会用到一个Shell高级技巧--subshell。举个例子，比如说同时查看一个文件的头10行和后10行.

(head -n 10 ; tail -n10 ) < ~/referece/annotaiton/TAIR10/TAIR10_GFF3_genes.bed

这里的()就是一个subshell, 它的作用就是同时执行()中的所有命令。

用到此处，就是同时完成提取VCF的header部分并只保留目标contig和提取目标区间的所有记录这两个任务，然后保存为vcf.gz格式。

(bcftools view -h some_variants.bcf | grep -v "##contig" | sed "/^##reference/a $(bcftools view -h some_variants.bcf | grep -w "ID=contig_1")" ; bcftools view -H some_variants.bcf contig_1 ) | bcftools view -Oz -o contig_1.vcf.gz

上面是一个非常复杂的shell命令，希望你能看懂。

这里面重复出现了两个变量，一个是some_variants.bcf，一个是contig_1, 我们可以将其用$1和$2代替，然后添加到你的~/.bashrc中，如下所示

# function
subvcf()
{
    (bcftools view -h $1 | grep -v "##contig" | sed "/^##reference/a $(bcftools view -h $1| grep -w "ID=$2")" ;  bcftools view -H $1 $2 ) | bcftools view -Oz -o $2.vcf.gz && bcftoos index $2.vcf.gz
}

最后用source ~/.bashrc添加刚才的函数到环境变量中，最后就是subvcf some_variants.bcf contig_1 代替之前的长串命令。

weixin_34344677

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。