如何批量更改Fasta文件的序列名?

本文介绍了一种在大量fasta文件序列需要改名时使用的Python脚本。脚本支持处理含有空格的序列名,但不支持制表符分割。需要两个输入文件:fasta序列文件和替换集。替换集是一个包含两列的文件,每行对应一个要更改的序列。文章提供了脚本代码和使用说明。
摘要由CSDN通过智能技术生成

 

在对fasta文件处理的时候,许多小伙伴经常会遇到要修改fasta文件序列名的情况。当要修改的序列只有几条的时候,手动就好了。但当序列成百上千的时候,手动修改就显得很笨了。

笔者最近也遇到了要大量修改序列名的情况,所以写了一个简单的python脚本,在这里和大家共享:

文件准备

首先,我们要准备输入文件。

输入文件一:序列文件

输入文件一是我们要处理的fasta文件,可以是核苷酸序列,也可以是氨基酸序列,两个都可以,取决于你要处理的序列。

fasta文件的格式很简单,由两部分组成:

一部分是序列名,该部分以>开头,后边跟着该条序列的名字。有时候的时候名字由多个由空格隔开的字符串组成,在分析的时候,我们通常会简化名字,只保留重要的那一个字符串。这是因为很多生物信息软件在处理复杂的序列名时,会出现意想不到的错误,比如基因结构注释软件Braker3。「注意」:序列名只能是一行。

另一部分是序列,可以由多行组成,也可以是一行。

在我们的脚本里,支持对含有空格的序列名处理,但不支持以\t(制表符)分割的,下边举几个例子:

>seq1
MAASTMA
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BioInfo Voyager

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值