利用Python解决生物问题-批量简化fasta文件中的ID

我是菜鸟www

已于 2022-07-11 17:39:03 修改

阅读量2k

点赞数 3

分类专栏： Python学习生物信息学文章标签： python 大数据

于 2022-07-09 18:29:56 首次发布

本文链接：https://blog.csdn.net/qq_44520665/article/details/125697047

版权

Python学习同时被 2 个专栏收录

12 篇文章 6 订阅

订阅专栏

生物信息学

10 篇文章 14 订阅

订阅专栏

抛砖引玉

如果你拿到一个fasta文件，它的id是这样的…
太长的对不对，而且你只想要基因名方便后续分析

在这里插入图片描述

于是乎，你想到了notepad++的正则表达式，并成功达到了你的目的，开始沾沾自喜^^

在这里插入图片描述

可是导师却让你多下几个物种的序列，emmmmmm,并且每个物种的pep和cds都要下，于是你又要简化ID，一个一个文件打开利用正则表达式替换，直到你的手抽筋，，，
于是Python出现在了你的脑海^V^

在这里插入图片描述

那么接下来我们就看看如何利用Python批量处理这些烦人的文件及序列吧

初始文件和生成文件

.fa结尾的序列文件，其中序列为官方网站下载，未简化
生成序列简化的_simplify.fa文件

话不多说上代码

运行时只需要修改代码里的路径即可

from pathlib import Path

files = Path("H:\\解压文件")#修改我哦

def id_simplify(i,outfile):
    with open(i,'rt') as f1:
        with open(outfile,'wt') as f2:
            for eachline in f1:
                if eachline[0] == '>':
                    f2.write(eachline.strip().split()[0])
                    f2.write('\n')
                else:
                    f2.write(eachline)
                    
def search_fa_simplify():
    for i in files.iterdir():
        if i.suffix == '.fa':
            outfile = i.parent / (i.stem + '_simplify.fa')
            id_simplify(i,outfile)

search_fa_simplify()