利用Python解决生物问题-批量简化fasta文件中的ID

抛砖引玉

如果你拿到一个fasta文件,它的id是这样的…
太长的对不对,而且你只想要基因名方便后续分析

在这里插入图片描述

于是乎,你想到了notepad++的正则表达式,并成功达到了你的目的,开始沾沾自喜^^

在这里插入图片描述
在这里插入图片描述

可是导师却让你多下几个物种的序列,emmmmmm,并且每个物种的pep和cds都要下,于是你又要简化ID,一个一个文件打开利用正则表达式替换,直到你的手抽筋,,,
于是Python出现在了你的脑海^V^

在这里插入图片描述

那么接下来我们就看看如何利用Python批量处理这些烦人的文件及序列吧

初始文件和生成文件

  • .fa结尾的序列文件,其中序列为官方网站下载,未简化
  • 生成序列简化的_simplify.fa文件
    在这里插入图片描述

话不多说上代码

运行时只需要修改代码里的路径即可

from pathlib import Path

files = Path("H:\\解压文件")#修改我哦

def id_simplify(i,outfile):
    with open(i,'rt') as f1:
        with open(outfile,'wt') as f2:
            for eachline in f1:
                if eachline[0] == '>':
                    f2.write(eachline.strip().split()[0])
                    f2.write('\n')
                else:
                    f2.write(eachline)
                    
def search_fa_simplify():
    for i in files.iterdir():
        if i.suffix == '.fa':
            outfile = i.parent / (i.stem + '_simplify.fa')
            id_simplify(i,outfile)

search_fa_simplify()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值