我想使用以下脚本从大的fasta文件中提取特定的fasta序列,但输出为空。从大的fasta文件中提取特定的fasta序列
transcripts.txt文件包含我想从assembly.fasta到selected_transcripts.fasta导出的列表转录本ID(ID和序列)。 例如:
transcripts.txt: Transcript_00004|5601
Transcript_00005|5352
assembly.fasta:>Transcript_00004|5601
GATCTGGCGCTGAGCTGGGTGCTGATCGACCCGGCGTCCGGCCGCTCCGTGAACGCCTCGAGTCGGCGCCCGGTGTGCGTTGACCGGAGATCGCGATCTGGGGAGACCGTCGTGCGGTT
>Transcript_00004|5360
CGATCTGGCGCTGAGCTGGGTGCTGATCGACCCGGCGTCCGGCCGCTCCGTGAACGCCTCGAGTCGGCGCCCGGTGTGCGTTGACCGGAGATCGCGATCTGGGGAGACCGTCGTGCGGTT
的ID由>符号开头:>Transcripts_00004|5601。
我要读的assembly.fasta文件,如果在assembly.fasta成绩单ID是transcripts.txt相同的写的,我必须写这份成绩单ID及其selected_transcripts.fasta序列。所以,在上面的例子中,我只需要写第一个成绩单。
有什么建议吗? 谢谢。
from Bio import SeqIO
my_list = [line.split(',') for line in open("/ho