Python蛋白质序列文件(.fasta)拆分

这篇博客介绍了如何使用Python将包含多个蛋白质序列的fasta文件拆分成单独的文件,每个文件对应一条蛋白质序列。作者展示了文件的原始格式,并解释了拆分的目的,即为PSIpred等软件的逐条处理做准备。文中提供了拆分代码示例,并展示了拆分后的文件结构。
摘要由CSDN通过智能技术生成

Python蛋白质序列文件(.fasta)拆分

前言

这是小编的第一篇博客,也是一种尝试,主要记录在python应用中遇到的一些小问题,小编平时做的主要是DNA结合蛋白的识别与预测,需要借助多种软件进行特征提取,如PSI——BLAST,PSIpred等等,小编这次要解决的问题就是小编拿到的原始序列数据为一个fasta文件中包含多个序列,但PSIpred是一条一条跑,因此需要将其拆分


目的

首先给大家看一下小编的文件样式:

这是从某位大佬文献中获得的6个数据集,小编想要通过python编程生成6个对应的文件夹:

每个文件夹中包括对应数据集中所有单条蛋白质序列文件,嗯。。。好像有点说不太明白,那就放图吧,以New_D31.fasta为例,这个文件中包含31条蛋白质序列:
在这里插入图片描述
可以看到每三行代表一条蛋白质序列,小编就是想把这每三行放到一个新的以该蛋白质名称命名的fasta文件中,最后的结果应该是这样的:
在这里插入图片描述
这个是打开文件夹New_D31之后的效果,里面有31个fasta文件,每个fasta文件是这样的:(还是以第一个为例)
在这里插入图片描述
差不多就是这个意思了,不知道大家明白了没有,下面就给大家放上小编的代码吧!

代码

代码如下(示例):

import os
#确定操作目录,数据集所在的目录,以及想要创建的新的文件夹所在的目录        
path = 'H:/硕士研究/binding-site/论文资料/数据集收集整理/数据集(用)/'
#读取该目录下文件名称、数目,并以此构造新的文件夹名称file_name,原始的.fasta文件名称读入到filename中
file_name = [
  • 7
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值