修改 bam 文件中染色体名

问题描述

在分析的过程中,有些数据的染色体命名为“chr1、chr2、…、chrX、chrY”,而有些数据的染色体命名则为“1、2、…、X、Y” (也就是不包含 chr 字符)。这里,通过代码对 bam 文件作为修改,实现染色体名的统一。

代码实现

假设我们有一个名为 test.bam 的文件,其中染色体名不包含chr字符,需要在染色体名前加上chr字符。

通过 samtoolsshell 实现 (注:samtools reheader 需要给一个- 的参数,不给会报错):

samtools view -H test.bam | sed -e 's/SN:\([0-9XY]\)/SN:chr\1/' -e 's/SN:MT/SN:chrM/' | samtools reheader - test.bam > test.CHR.bam
代码封装

因为会经常碰到这样的情况,因此就将上面的这段代码封装到一个名为 bam_add_chr.sh 的脚本,放在 bin 目录下面,方便调用。

#! /usr/bin/bash

samtools view -H $1 | sed -e 's/SN:\([0-9XY]\)/SN:chr\1/' -e 's/SN:MT/SN:chrM/' | samtools reheader - $1 > $2

echo "Finished!"

调用方法:

bam_add_chr.sh test.bam test.CHR.bam
其它方法

可以通过 Python 的 Pysam 模块进行修改,但计算速度相对更低。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值