将下载的 Fasta 格式注释行没有物种名的通过python脚本将对应的 GenPept 格式的物种添加至注释行，再通过脚本将同一物种较短的重复序列去除。

最新推荐文章于 2023-12-15 09:38:43 发布

Fin9ertipsArt

最新推荐文章于 2023-12-15 09:38:43 发布

阅读量404

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/jnydep/article/details/126771156

版权

该博客介绍了如何通过Python脚本处理Fasta和GenPept文件。首先，脚本从Fasta文件中识别缺少物种信息的序列，并在GenPept文件中查找相应的物种名称。然后，将找到的物种信息添加回Fasta文件。接着，脚本按物种分类序列，并删除每个物种中较短的重复序列。整个过程涉及文件读取、字符串处理和字典操作，以实现序列数据的整理和优化。

摘要由CSDN通过智能技术生成

将下载的 Fasta 格式注释行没有物种名的通过python脚本将对应的 GenPept 格式的物种添加至注释行，再通过脚本将同一物种较短的重复序列去除。

from multivalued_dict_package import *  #pip install multivalued_dict

with open('sequence.fasta') as fasta_file:
    fasta_line_list = fasta_file.readlines()
fasta_line_list = [line.rstrip('\n\r') for line in fasta_line_list]  #去除每行末的换行符回车符
with open('sequence.gp') as gp_file:
    gp_line_list = gp_file.readlines()

for i in range(len(fasta_line_list)):  #遍历fasta文件每一行
    if fasta_line_list[i].startswith('>') and (not fasta_line_list