根据bed文件计算CG含量

看到一个临床小panel的测序数据的质控结果,CG含量 37%,(一般的结果都是45-55%的范围)那是实验和测序造成的,还是本来就是这个数值呢?
思路:根据bed文件提取基因组的的序列,然后再计算序列的CG含量。写脚本有点麻烦,下面这个方法稍微简单一点:

提取序列:
for region in $( awk '{print $1":"$2"-"$3}'  my_two_gene.bed ) ;do samtools  faidx  ucsc.hg19.fasta  ${region }; done > my_two_gene.fasta

samtools的1.9 版本http://www.htslib.org/doc/samtools.html支持批量提取 ,也可以写成:

awk  '{print $1":"$2"-"$3}'  my_two_gene.bed  > my_two_gene_region.txt
samtools  faidx  ucsc.hg19.fasta  -r my_two_gene_region.txt > my_two_gene.fasta
计算CG含量:
all=$(grep -v "^>"  my_two_gene.fasta | grep -o -i '[ATCG]'  | wc -l ) 
CG=$( grep -v "^>"  my_two_gene.fasta | grep -o -i '[CG]'  | wc -l )
echo "scale=3;${CG}/${all}" | bc

得到的结果,为0.359 , 和下机数据基本相符,看来GC含量本来就是这么低。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值