python中包含序列_如何在Python中创建一个包含多个fasta序列和id的列表

最新推荐文章于 2023-01-17 18:32:31 发布

Adrian Gao

最新推荐文章于 2023-01-17 18:32:31 发布

阅读量426

点赞数

文章标签： python中包含序列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31542739/article/details/112960018

版权

这篇博客介绍了一位Python新手尝试从基因组fasta文件中提取序列，并使用BLAST进行比对，以获取前50个高匹配度的序列。通过BioPython库解析fasta文件，使用ncbi-blastn进行比对，并保存结果到XML文件。然后，从比对结果中筛选出期望值小于特定阈值的序列，并将其写入新的fasta文件。过程中遇到了类型错误，博主寻求解决方案。

摘要由CSDN通过智能技术生成

我是Python新手。我试图以包含8个染色体序列的基因组fasta文件作为输入，对一个查询序列进行爆炸，并提取前50个命中率。

我的代码是：from Bio import SeqIO

from Bio.Seq import Seq

from Bio.Blast import NCBIXML

from Bio.Blast.Applications import NcbiblastnCommandline

from Bio.SeqRecord import SeqRecord

from Bio.Alphabet import IUPAC

import os

db = list(SeqIO.parse('genome.fasta', 'fasta'))

for i in range(len(db)):

print "Chromosome_"+str(i+1)

print('Doing the BLAST and retrieving the results...')

output_handle = open("dbn.fasta", "w")

nseq=db[i]

SeqIO.write(nseq, output_handle, "fasta")

output_handle.close()

os.system("makeblastdb -in dbn.fasta -dbtype nucl -out dbn")

result_handle= NcbiblastnCommandline(query="sequence.fasta", db = "dbn", outfmt= 5, out="my_blast_"+str(i)+".xml", evalue = 0.00001, task = "megablast")

stderr, stdout = result_handle()

E_VALUE_THRESH = 1e-100

c=0

print "Extracting hits for Chromosome"+str(i+1)+"in another file"

for record in NCBIXML.parse(open("my_blast_"+str(i)+".xml")):

if record.alignments:

for align in record.alignments:

for hsp in align.hsps:

if hsp.expect < E_VALUE_THRESH:

if c>50: break

start=hsp.sbjct_start

end=hsp.sbjct_end

newSeq = db[i].seq[:end]

newSeq = newSeq[start:]

ids=db[i].id+str(c)

myseq[c]=SeqRecord(Seq(newSeq,IUPAC.DNA))

myseq[c].id=str(ids)

c=c+1

output_handler = open("example_"+str(i)+".fasta", "w")

SeqIO.write(myseq, output_handler, "fasta")

output_handler.close()

第33行出现错误：

^{pr2}$

我试着移除IUPAC.DNA，做出一条线：myseq[c]=SeqRecord(Seq(newSeq)

它给了我一个类型错误：TypeError: The sequence data given to a Seq object should be a string (not another Seq object etc)

有没有解决这个问题的方法，还有没有其他方法可以创建一个多fasta列表变量？在

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。