随着人工智能技术的发展与深化,AI 在计算生物领域的融合与发展也愈发深入。而蛋白质结构预测则是其中的一项重要工作。
OpenDILab 发布的 repo: Awesome AI-based Protein Design,这个 repo 致力于帮大家收录整理基于 AI 的蛋白质设计前沿 paper,从而让任何感兴趣的人都能更好地了解此领域。
我们在此 repo 中筛选整理出了近三年来最值得阅读研究的 AI-based Protein Design 论文,这些论文大多都被 Nature 和 Science 等顶级期刊收录,在此推荐给大家。
欢迎体验 Awesome AI-based Protein Design:
http://https://github.com/opendilab/awesome-AI-based-protein-design
什么是蛋白质结构设计?
蛋白质结构是指蛋白质分子的空间结构,所有蛋白质都是由20种不同的氨基酸连接的一条长链组成,这条长链在不同氨基酸组合下会呈现出不同的空间结构。
蛋白质的空间结构直接决定其功能。例如,抗体蛋白折叠的形状能使它们精确识别和瞄准特定的异物,就像一把钥匙插入锁中一样。然而,蛋白质根据其氨基酸序列可能折叠成的不同构型的数量是个天文数字,传统方式中,蛋白质空间结构测定通过核磁共振和X射线晶体学测得,成本高、费时长,需要数百万美元的设备和数月乃至数年的反复试验。因此,在几年前,科学家还只知道人体大约2万种蛋白质中约17%的 3D 结构。
AlphaFold2 是一个由 DeepMind 开发的深度学习方法,利用多个外部开源程序和数据库来通过蛋白质序列预测其 3D 结构。AlphaFold2 的出现是为了解决蛋白质结构预测问题,即由氨基酸序列得出对应空间结构,并取得了原子级的预测准确度。
但正如前文所说,蛋白质功能由蛋白质结构决定,以制备适用于某类疾病的药为例,仅蛋白质结构预测并不能得出想要的大分子药物氨基酸序列。而蛋白质设计的目的便是设计具有某类功能的蛋白质,基于 AI 的蛋白质设计,则结合之前蛋白质结构预测模型,自动学习蛋白质设计方法,从而真正服务于人类制药需求。
基于 AI 技术的蛋白质结构设计方法
不同于 NLP、CV 这类定义明确的问题,蛋白质设计具体做法相差很大,适用于不同的设计流程中的问题定义也很不同。绝大多数 paper 都将蛋白质设计定义为一个由空间结构预测氨基酸序列的问题(就是 Alphafold 的逆问题);而有的则定义为一个给定部分结构的蛋白质结构补全问题,例如赫赫有名 David Baker 组最近的 Science[1]。
前者假设可以通过分子动力学模拟等方式得出想要蛋白质的空间结构;后者则假设只能找到部分结构吻合。
除此