如何统计PDB文件二级结构的多少及位置并和作图

最新推荐文章于 2025-01-03 22:15:00 发布

wxid_5ksj33htorzc22

最新推荐文章于 2025-01-03 22:15:00 发布

阅读量2.3k

点赞数

文章标签： java 开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzY2ODcxOA==&mid=2247484086&idx=1&sn=0def78c2bca3a88da2bce59de2d6c7e6&chksm=ceb94537f9cecc21f6948ca1ff76b9601228750cc44d3951bbe5167bfbc5fa3a578c9963b71a&token=2072726981&lang=zh_CN#rd

版权

文章介绍了如何利用pymol软件生成含有蛋白二级结构信息的txt文件，然后通过处理这个文件得到二级结构的位置，如alpha-helix和beta-sheet。接着，文章提供了一个方法整理这些数据成特定格式，并推荐了一个在线网站（novopro.cn）来创建蛋白质序列和二级结构的图形表示。此外，还提到了其他在线工具可用于比较不同蛋白质的二级结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

很多时候我们想要展示蛋白质二级结构的多少和位置，如下简单介绍了两种可以实现此要求的方法。

一、在pymol中输出含有蛋白二级结构信息的文件


load AB.pdb
select all
open("potein.txt","w").writelines( ["Residue %s: %s\n"%(a.resi,a.ss) for a in cmd.get_model("AB" +" and n. ca").atom] )
delete all

打开生成txt文本，每行（每个氨基酸）最后一个字符表示不同二级结构的简写，其中H表示alpha-helix，L表示loop (coil)，S表示 beta-sheet。

二、获取所有的二级结构并整理成如{'L': '1-5,10-11,16-18', 'S': '6-9,12-15'}样式


f = open("protein.txt","r")
lst = []
for a in f.readlines():
  lst.append(a[-3:-1])

def format_list(lst):
    output = {}
    start = None
    prev_char = None
    for i, char in enumerate(lst):
        if char != prev_char:
            if prev_char is not None:
                end = i - 1
                if start < end:
                    output[prev_char] = output.get(prev_char, []) + [(start, end)]
                else:
                    output[prev_char] = output.get(prev_char, []) + [start]
            start = i
        prev_char = char
    # handle the last character sequence
    if start is not None:
        end = len(lst) - 1
        if start < end:
            output[prev_char] = output.get(prev_char, []) + [(start, end)]
        else:
            output[prev_char] = output.get(prev_char, []) + [start]
    # format the output as a string
    result = {}
    for k, v in output.items():
        s = ""
        for seq in v:
            if isinstance(seq, tuple):
                s += f"{seq[0]+1}-{seq[1]+1},"
            else:
                s += f"{seq+1},"
        result[k] = s.rstrip(",")
    return result

三、将上述字典结果复制到在线网站作蛋白质序列和二级结构图

打开在线网站：https://www.novopro.cn/tools/fancy-ss.html