将下载的 Fasta 格式注释行没有物种名的通过python脚本将对应的 GenPept 格式的物种添加至注释行,再通过脚本将同一物种较短的重复序列去除。

该博客介绍了如何通过Python脚本处理Fasta和GenPept文件。首先,脚本从Fasta文件中识别缺少物种信息的序列,并在GenPept文件中查找相应的物种名称。然后,将找到的物种信息添加回Fasta文件。接着,脚本按物种分类序列,并删除每个物种中较短的重复序列。整个过程涉及文件读取、字符串处理和字典操作,以实现序列数据的整理和优化。
摘要由CSDN通过智能技术生成

将下载的 Fasta 格式注释行没有物种名的通过python脚本将对应的 GenPept 格式的物种添加至注释行,再通过脚本将同一物种较短的重复序列去除。

from multivalued_dict_package import *  #pip install multivalued_dict

with open('sequence.fasta') as fasta_file:
    fasta_line_list = fasta_file.readlines()
fasta_line_list = [line.rstrip('\n\r') for line in fasta_line_list]  #去除每行末的换行符回车符
with open('sequence.gp') as gp_file:
    gp_line_list = gp_file.readlines()

for i in range(len(fasta_line_list)):  #遍历fasta文件每一行
    if fasta_line_list[i].startswith('>') and (not fasta_line_list
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值