人类基因组测序文件chromFa.tar (hg19),统计每条染色体的长度,GC含量,N比值,N、A、T、C、G各碱基数量。

import os
import time
begin = time.time()
os.chdir(r'G:\tem\fa')
def count_n_and_gc(file):
    content = []
    chromsome = []
    g = 0; c = 0; n = 0; a = 0; t = 0
    with open(file) as f:
        raw_list = f.readlines()
        for i in raw_list:
            if not i.startswith('>'):
                i = i.upper()
                n +=  i.count('N')
                g += i.count('G')
                c += i.count('C')
                a += i.count('A')
                t += i.count('T')
            else:
                if  chromsome:
                    content.append((n ,a, t, c, g))
                    g = 0; c = 0; n = 0; a = 0; t = 0
                chromsome.append(i.strip())
        content.append(( n ,a, t, c, g))
    return (content,chromsome)
content = []
chromsome = []
for i in (list(range(1,23)) + ['X','Y']):
    file = 'chr'+ str(i) + '.fa'
    print('Start dealing with ' + file)
    m, n = count_n_and_gc(file)
    content += m
    chromsome += n
all_info = 'chr,GC_ratio,N_ratio,Length,N,A,T,C,G'
for i in range(len(chromsome)):
    data = '\n'+str(chromsome[i]) +',' + "%.5f"%((content[i][-1]+content[i][-2])/sum(content[i][1:])) +','  + "%.5f" %(content[i][0]/(sum(content[i]))) +','  +str((sum(content[i]))) +','  +str((content[i][0])) + ','  +str(content[i][1])+',' +str(content[i][2])+','  +str(content[i][3])+','  +str(content[i][4]) 
    all_info += data
with open('hg19_analy1f.csv','w') as f:
    f.write(all_info)
print('Time using:'+ str(time.time() - begin) + ' seconds\n')
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值