蛋白质序列处理，只保存蛋白质序列，而不存ID等

最新推荐文章于 2024-09-07 20:08:36 发布

李划水员

最新推荐文章于 2024-09-07 20:08:36 发布

阅读量988

点赞数

分类专栏：蛋白质基础文章标签： python 深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/Daisy4/article/details/124592057

版权

蛋白质基础专栏收录该内容

15 篇文章 5 订阅

订阅专栏

通常蛋白质从数据库中下载后，会有如下的信息，

每个蛋白质第一行的信息，对于只关注序列的人来说，是多余的，如何将第一行去掉，并将一条蛋白质完整显示，用以下代码：

def read_file(file_name):
    pro_swissProt = []
    with open(file_name, 'r') as fp:
        protein = ''
        for line in fp:
            if line.startswith('>sp|'):#作用：判断字符串是否以指定字符或子字符串开头
                pro_swissProt.append(protein)
                protein = ''
            elif line.startswith('>tr|') :
                pro_swissProt.append(protein)
                protein = ''
            elif line.startswith('>sp|') == False:
                protein = protein+line.strip()
    pro_swissProt.append(protein)          #将最后一条蛋白质加进去
    return   pro_swissProt[1:]   


file_1 = '/brain/cancer_fasta_PA.txt'


# positive seq protein A
pos_seq_protein_A = read_file(file_1)

最后，大家要开心哦~

李划水员

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
蛋白质序列处理，只保存蛋白质序列，而不存ID等

通常蛋白质从数据库中下载后，会有如下的信息，每个蛋白质第一行的信息，对于只关注序列的人来说，是多余的，如何将第一行去掉，并将一条蛋白质完整显示，用以下代码：def read_file(file_name): pro_swissProt = [] with open(file_name, 'r') as fp: protein = '' for line in fp: if line.startswith('>sp|.
复制链接

扫一扫

专栏目录