抛砖引玉
如果你拿到一个fasta文件,它的id是这样的…
太长的对不对,而且你只想要基因名方便后续分析
于是乎,你想到了notepad++的正则表达式,并成功达到了你的目的,开始沾沾自喜^^
可是导师却让你多下几个物种的序列,emmmmmm,并且每个物种的pep和cds都要下,于是你又要简化ID,一个一个文件打开利用正则表达式替换,直到你的手抽筋,,,
于是Python出现在了你的脑海^V^
那么接下来我们就看看如何利用Python批量处理这些烦人的文件及序列吧
初始文件和生成文件
- .fa结尾的序列文件,其中序列为官方网站下载,未简化
- 生成序列简化的_simplify.fa文件
话不多说上代码
运行时只需要修改代码里的路径即可
from pathlib import Path
files = Path("H:\\解压文件")#修改我哦
def id_simplify(i,outfile):
with open(i,'rt') as f1:
with open(outfile,'wt') as f2:
for eachline in f1:
if eachline[0] == '>':
f2.write(eachline.strip().split()[0])
f2.write('\n')
else:
f2.write(eachline)
def search_fa_simplify():
for i in files.iterdir():
if i.suffix == '.fa':
outfile = i.parent / (i.stem + '_simplify.fa')
id_simplify(i,outfile)
search_fa_simplify()