先把所有的fasta 序列合并为一个文件
cat *.fasta > result_all_Sequence.fasta
筛选大于90bp的
然后查找其中的GCAT
from glob import glob
import os
os.chdir("D:\\")
file_in = open("result_all_Sequences.fasta", 'r') #定义文件file_in,为打开文件result_all_Sequences.fasta
fa_Con = file_in.read() #.read()是把文件的全部内容读进来
file_in.close() #.close()是把文件关闭
every_fas = fa_Con.split(">") #.split(">")是指以>为分隔符把字符串分割为列表,分割后的列表里面不会包含>,即分割后>消失
## 写入文件
out_file = open("res.fasta", 'w') # w是可写
for i in every_fas:
if i != "":
start = i.index("\n")
if len(i[start:]) >= 90:
out_file.write(">" + i)
out_file.close()
# 读取刚刚筛选过