生物信息打开fa文件

代码版

def readFa(fa):
    '''
    @msg: 读取一个fasta文件
    @param: fa {str}  fasta 文件路径
    @return: {generator} 返回一个生成器,能迭代得到fasta文件的每一个序列名和序列
    '''
    with open(fa,'r') as FA:
        seqName,seq,fold='','',''
        while 1:
            line=FA.readline()
            line=line.strip('\n')
            if (line.startswith('>') or not line) and seqName:
                yield((seqName,seq,fold))
            if line.startswith('>'):
                seqName = line[1:]
                seq=''
                fold=''
            elif line.startswith('(') or line.startswith('.'):
                fold+=line
            else:
                seq+=line
            if not line:break


training_seq = []
training_fold = []
training_labels = []

fa="RBP-24/CLIPSEQ_ELAVL1.train.positives.fa"

#读取fasta文件
for seqName,seq,fold in readFa(fa1):
    training_seq.append(seq)
    #保留501长度
    training_fold.append(fold[0:501])
    training_labels.append(1)

下载库版(非常全面)

python 学习之 fasta/fastq 处理利器–pyfastx – 恒诺新知https://www.weinformatics.cn/89bddcbc14/

生物信息中的Python 02 | 用biopython解析序列_用python分析核苷酸序列_白墨石的博客-CSDN博客上一篇文章自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。一、准备工作1、 按照上一篇下载fasta文件的步骤,可以同理得到GeneBank的数据格式2、现在我们的目录结构是这样的3、安装Biopython,这里有两种方案:3....https://blog.csdn.net/u011262253/article/details/88542836?spm=1001.2014.3001.5506 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值