根据ID从FASTA文件中批量提取序列【Python】

最新推荐文章于 2024-07-12 17:06:52 发布

郑二狗

最新推荐文章于 2024-07-12 17:06:52 发布

阅读量4.3k

点赞数 2

分类专栏：生信学习笔记文章标签： python 开发语言生物信息蛋白质

本文链接：https://blog.csdn.net/duoluka/article/details/123578845

版权

学习笔记同时被 2 个专栏收录

15 篇文章 6 订阅

订阅专栏

生信

5 篇文章 1 订阅

订阅专栏

本文介绍了如何利用Python脚本从FASTA文件中根据指定的ID列表提取序列。首先，需要安装click和biopython库。然后，通过一个名为get_seqs_by_id.py的Python脚本，读取FASTA文件和包含ID的txt文件，并将匹配的序列写入新的FASTA文件。在遇到编码问题时，确保txt文件以正确的编码（如UTF-8）保存。最后，成功运行脚本将生成所需序列的FASTA文件。

摘要由CSDN通过智能技术生成

根据ID从FASTA文件中批量提取序列【Python】

生信问题记录

我的需求

input：

FASTA文件，含六千余个蛋白序列。命名为FA.fasta
txt文件，经过interpro注释后，筛选出五千余个蛋白，将五千余个蛋白ID导出到txt文件中，每行一个。命名为ID.txt

output：

FASTA文件，根据ID.txt里的ID从FA.fasta里提取出对应的五千余个序列。提取结果也以文件的格式保存为out_file.fasta

环境

Windows 10 64x
命令行运行py

解决流程

如果编程娴熟，可以直接用perl或Python写脚本；碍于个人技艺生疏，直接面向百度编程。搜索发现，解决方案非常多，最终某位网友的Python脚本成功运行

提示如果你是用ID行，形如 >RLS74643.1 dihydrofolate reductase [Planctomycetes bacterium] 来提取序列，那么更为简单，可以使用联川生物的免费在线小工具

参考

1c43f522e1c3的帖子

https://www.jianshu.com/p/b7032dfae44e

步骤

直接复制网友的代码会出很多错，要先安装click模块和biopython的包

安装包

pip install click
pip install biopython

复制粘贴，另存为get_seqs_by_id.py

#coding:utf-8

import click

from Bio import SeqIO

@click.command()

@click.option('-f', '--fastafile', help='Input a fasta file', required=True)

@click.option('-i', '--idfile', help='Input an idlist', required=True)

@click.option('-o', '--outfile', help='Input the name of result file', default='result_out.fa')

def main(fastafile="FA.fa",idfile="ID.txt",outfile= "result_out.fa"):

    with open(idfile) as id_handle:
        wanted = set(line.rstrip("\n").split(None,1)[0] for line in id_handle)

    print("Found %i unique identifiers in %s" % (len(wanted), idfile))

    records = (r for r in SeqIO.parse(fastafile, "fasta") if r.id in wanted)

    count = SeqIO.write(records, outfile, "fasta")

    print("Saved %i records from %s to %s" % (count, fastafile, outfile))

    if count < len(wanted):

        print("Warning %i IDs not found in %s" % (len(wanted) - count, fastafile))
 
if __name__ == '__main__':
    main()

将输入文件和py文件放在同一目录下，命令行输入

python get_seqs_by_id.py -f **.fasta -i ID.txt -o out_file.fasta

如果顺利出结果再好不过了，然而我报了错

报错不要慌，只有最后一行是关键信息

debug

错误的意思是：Unicode的解码（Decode）出现错误（Error）了，以gbk编码的方式去解码（该字符串变成Unicode），但是此处通过gbk的方式，却无法解码（can’t decode ）。“illegal multibyte sequence”意思是非法的多字节序列，即没法（解码）了。
网上解决方案
于是我在open函数这一行加入encoding=‘UTF-8’

with open(idfile,encoding='UTF-8') as id_handle:

结果又双叒报错了！
错误信息
耐心搜索，发现可能是用Python读文件（txt或者csv），出现编码错误
打开我的ID.txt一看，从Excel复制的信息居然是UTF-16！怪不得一直报错。把txt文件用UTF-8另存就好了……

运行成功

运行成功是这样的，输出一个fasta文件，正是我想要的。

郑二狗

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
根据ID从FASTA文件中批量提取序列【Python】

当你有一个ID文件，该如何批量提取所对应的fasta序列？
复制链接

扫一扫

专栏目录