问题
最近开始学习使用Biopython这个工具包,非常方便地可以处理一些序列文件。最近用Bio.SeqIO
模块进行读取fasta文件到字典中的时候发现一个问题,如果你的fasta文件>开头的那一行header中含有空格的话,该行内容以键存到字典里,这个header会被从第一个空格的地方截断,比如原本的文件是这样的:
>Header1 this is the sequence name
读进去之后可能就变成了
>Header1
解决办法
使用description
。如:
nucl_dict = SeqIO.to_dict(SeqIO.parse(input_file,"fasta"), key_function = lambda rec: rec.description) #keep whitespace in FASTA header