Python蛋白质序列文件（.fasta）拆分

最新推荐文章于 2022-03-23 14:51:36 发布

坏丫头521

最新推荐文章于 2022-03-23 14:51:36 发布

阅读量5.2k

点赞数 7

分类专栏： python-蛋白质文章标签： python

本文链接：https://blog.csdn.net/qq_48886435/article/details/108920263

版权

这篇博客介绍了如何使用Python将包含多个蛋白质序列的fasta文件拆分成单独的文件，每个文件对应一条蛋白质序列。作者展示了文件的原始格式，并解释了拆分的目的，即为PSIpred等软件的逐条处理做准备。文中提供了拆分代码示例，并展示了拆分后的文件结构。

摘要由CSDN通过智能技术生成

前言

这是小编的第一篇博客，也是一种尝试，主要记录在python应用中遇到的一些小问题，小编平时做的主要是DNA结合蛋白的识别与预测，需要借助多种软件进行特征提取，如PSI——BLAST，PSIpred等等，小编这次要解决的问题就是小编拿到的原始序列数据为一个fasta文件中包含多个序列，但PSIpred是一条一条跑，因此需要将其拆分

目的

首先给大家看一下小编的文件样式：

这是从某位大佬文献中获得的6个数据集，小编想要通过python编程生成6个对应的文件夹：

每个文件夹中包括对应数据集中所有单条蛋白质序列文件，嗯。。。好像有点说不太明白，那就放图吧，以New_D31.fasta为例，这个文件中包含31条蛋白质序列：
在这里插入图片描述
可以看到每三行代表一条蛋白质序列，小编就是想把这每三行放到一个新的以该蛋白质名称命名的fasta文件中，最后的结果应该是这样的：

这个是打开文件夹New_D31之后的效果，里面有31个fasta文件，每个fasta文件是这样的：（还是以第一个为例）
在这里插入图片描述
差不多就是这个意思了，不知道大家明白了没有，下面就给大家放上小编的代码吧！

代码

代码如下（示例）：

import os
#确定操作目录，数据集所在的目录，以及想要创建的新的文件夹所在的目录        
path = 'H:/硕士研究/binding-site/论文资料/数据集收集整理/数据集（用）/'
#读取该目录下文件名称、数目，并以此构造新的文件夹名称file_name，原始的.fasta文件名称读入到filename中
file_name = [

最低0.47元/天解锁文章

坏丫头521

关注

7
点赞
踩
38

收藏

觉得还不错? 一键收藏
5
评论
Python蛋白质序列文件（.fasta）拆分

Python蛋白质序列文件（.fasta）拆分前言目的代码总结前言这是小编的第一篇博客，也是一种尝试，主要记录在python应用中遇到的一些小问题，小编平时做的主要是DNA结合蛋白的识别与预测，需要借助多种软件进行特征提取，如PSI——BLAST，PSIpred等等，小编这次要解决的问题就是小编拿到的原始序列数据为一个fasta文件中包含多个序列，但PSIpred是一条一条跑，因此需要将其拆分目的首先给大家看一下小编的文件样式：这是从某位大佬文献中获得的6个数据集，小编想要通过python编
复制链接

扫一扫