reads count文件转化为fasta格式文件(redundant reads)

从NCBI下载的测序数据很多是去过接头的,并且整理成readscount格式,即每行第一列为reads,第二列为reads数,而我们需要把它整理成fasta格式,并且每个read都整理为一条序列

原始文件:

cat GSM3124755_WTB_PARE.csv | head
GATCTTTCGAACTTTCCCAAC,1
ACTCTCTGCACTAAACAAAA,1
TTTTGTCATTGATTTTTGTA,4
GCAATCGAAATTCTCTGACG,1
GTAGTGACGAAAGCTGGCTCC,1
ATTACAGCTTCTGATGTCTT,4
CATCTTGGTCATGTCTTTGA,1
CATACAATATGGAGATGAAG,1
CCGACTTTGAGGGAGTTCGT,1
TACATTGGTGTTGGTACTGT,1

python脚本

fw = open('GSM3124755_WTB_PARE.fas', 'w')
s = 0
with open('GSM3124755_WTB_PARE.csv', 'r') as fr:
    for line in fr.readlines():
        s += 1
        count = str(line.strip().split(',')[1])
        seq = str(line.strip().split(',')[0])
        for i in range(int(count)):
            fw.write('>' + str(s) + '_' + str(i + 1)  + '\n' + seq + '\n')
fw.close()

输出结果:
cat cat GSM3124755_WTB_PARE.fas | head

>1_1
GATCTTTCGAACTTTCCCAAC
>2_1
ACTCTCTGCACTAAACAAAA
>3_1
TTTTGTCATTGATTTTTGTA
>3_2
TTTTGTCATTGATTTTTGTA
>3_3
TTTTGTCATTGATTTTTGTA
>3_4
TTTTGTCATTGATTTTTGTA
>4_1
GCAATCGAAATTCTCTGACG
>5_1
GTAGTGACGAAAGCTGGCTCC
>6_1
ATTACAGCTTCTGATGTCTT
>6_2
ATTACAGCTTCTGATGTCTT
>6_3
ATTACAGCTTCTGATGTCTT
>6_4
ATTACAGCTTCTGATGTCTT
>7_1
CATCTTGGTCATGTCTTTGA
>8_1
CATACAATATGGAGATGAAG
>9_1
CCGACTTTGAGGGAGTTCGT
>10_1
TACATTGGTGTTGGTACTGT
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值