python根据序列长度筛选序列，查找序列中指定碱基序列

最新推荐文章于 2024-06-10 20:42:22 发布

weixin_34253539

最新推荐文章于 2024-06-10 20:42:22 发布

阅读量1.8k

点赞数 2

文章标签： python

原文链接：http://blog.51cto.com/matrix6ro/1885915

版权

该博客介绍了如何使用Python处理fasta序列文件，首先将多个fasta序列合并成一个文件，然后通过Python脚本筛选出长度超过90个碱基的序列，并在这些序列中查找特定的GCAT碱基序列。

摘要由CSDN通过智能技术生成

先把所有的fasta 序列合并为一个文件

cat *.fasta > result_all_Sequence.fasta

筛选大于90bp的

然后查找其中的GCAT

from glob import glob
import os

os.chdir("D:\\")

file_in = open("result_all_Sequences.fasta", 'r') #定义文件file_in，为打开文件result_all_Sequences.fasta


fa_Con = file_in.read()           #.read()是把文件的全部内容读进来

file_in.close()                   #.close()是把文件关闭

every_fas =  fa_Con.split(">")    #.split(">")是指以>为分隔符把字符串分割为列表，分割后的列表里面不会包含>,即分割后>消失

## 写入文件

out_file = open("res.fasta", 'w') #  w是可写

for i in every_fas:
    if i != "":
        start = i.index("\n")
        if len(i[start:]) >= 90:
            out_file.write(">" + i)
out_file.close()


# 读取刚刚筛选过

最低0.47元/天解锁文章

weixin_34253539

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
python根据序列长度筛选序列，查找序列中指定碱基序列

先把所有的fasta 序列合并为一个文件cat *.fasta > result_all_Sequence.fasta筛选大于90bp的然后查找其中的GCATfromglobimportglobimportosos.chdir("D:\\")file_in=open("result_all_Sequences.fasta",'r')#定义文件f...
复制链接

扫一扫