SAM BAM 和 CRAM

处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、bed、vcf、gvcf等,大家对sam和bam都听得比较多,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经有很多博文讲到了,可自行百度、Google。

  • SAM

  • sam(Sequence Alignment Mapping) 序列比对映射,纯文本格式,所以直接用more命令或者其他查看文本的命令可以打开,基本格式就是下图这样
  • BAM

  • BAM文件是SAM文件的二进制格式,由bwa的开发者李恒(lh3)设计开发,采用一种比gz更加高效的压缩算法,对其进行压缩,它的文件大小差不多只有原来的1/6。比如一个平均100X的WES样本,sam文件差不多30G,而bam文件5G不到。
  • CRAM

  • 有人习惯将其称为BAM的高压缩格式,因为它和BAM/SAM的格式基本相同。
  • 可以通过samtools view -C -T hg19.fa N190446.sort.bam > N190446.sort.cram 命令进行bam和cram的转换,但是速度很慢,压缩后的文件更小了,还是上面的例子,压缩后只有1G左右。
  • 关于sam、bam、cram之间的相互转换,有很多其他文章可参考,在这里不再赘述。
  • 李恒(lh3)说CRAM一定会取代BAM。我想这必将很大程度上解决NGS数据存储的问题,尤其是WGS时代的到来,让我们拭目以待。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值