从基因组文件中找出可读框

最新推荐文章于 2025-06-04 16:29:08 发布

Eumenidus

最新推荐文章于 2025-06-04 16:29:08 发布

阅读量678

点赞数

分类专栏：蛋白质分析文章标签：生物信息学生物学 python

本文链接：https://blog.csdn.net/Eumenidus/article/details/126878725

版权

蛋白质分析专栏收录该内容

7 篇文章

订阅专栏

该代码实现了一个简单的Python程序，用于读取基因组FASTA文件，找出其中的开放阅读框（ORF），并考虑反向互补序列。程序首先识别ATG作为起始密码子，然后寻找TAG、TGA或TAA作为终止密码子，要求可读框长度至少为20个氨基酸。最后，将找到的ORF写入新的FASTA文件。请注意，对于大文件，此代码可能运行时间较长，建议进行性能优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

通过输入基因组fasta文件即可找出对应可读框并输出为新的fasta文件

代码

global number
number=1

def get_cds(seq):
    scaffolddict={}
    for i in range(len(seq)-2):
        if seq[i]=='A' and seq[i:i+3]=='ATG':
            k=i
            orf=''
            while k<len(seq)-2:
                codon=seq[k:k+3]
                orf+=codon
                if codon=='TAG' or codon=='TGA' or codon=='TAA':
                    break
            if len(orf)>60: #可读框小于20个氨基酸则不算入
                scaffolddict[f'sequence{number}']=orf
    return scaffolddict
                

def reverse_complementary(seq):
    reverseseq=seq[::-1]
    resultseq=''
    basepair={"A":"T","T":"A","C":"G","G":"C"}
    for s in reverseseq:
        resultseq+=basepair[s]
    return resultseq


genomedict={}

#请修改输入文件名
with open("input.fasta",'rt') as infile:
    for line in infile:
        if line[0]=='>':
            key=line[1:].strip()
            genomedict[key]=''
        elif len(line.strip())>0:
            genomedict[key]+=line.strip().upper()

seqdict={}


for seqname in genomedict:
    seqdict.update(get_cds(genomedict[seqname]))
    seqdict.update(get_cds(reverse_complementary(genomedict[seqname])))


with open("annotated_ORF.fasta",'wt') as outfile:
    for seqname in seqdict:
        outfile.write(f">{seqname}\n{seqdict[seqname]}\n")