文章发表在nature reviews bioengineering上
目录
摘要
人工智能(AI)和机器学习(ML)模型最近已进入药物发现领域。鉴于抗菌素耐药性日益普遍,以及抗生素开发所固有的挑战,迫切需要加快设计新的抗菌素疗法。
抗菌肽(AMPs)是治疗细菌感染的药物,但由于毒性、稳定性差、细胞渗透有限和成本高等问题,其临床应用缓慢。人工智能和机器学习的最新进展使研究者在预测生物分子特性和结构以及生成新分子方面的能力取得突破。基于ML的多肽建模可以克服与传统药物发现相关的一些缺点,并有助于amp的快速开发。
这篇文章综述了这一领域,调查了可用于解决当前阻碍AMP开发问题的ML方法,还概述了在临床实践中更广泛利用amp需要解决的重要限制,以及数据驱动肽设计的新机会。
文章重点
1. ML可以帮助AMP的设计和发现,优势在于提高疗效,减少开发时间和成本。
2. ML可用于预测分子结构和治疗特性,如抗菌功效,吸收,代谢,排泄和毒性。
3. 深度生成模型是设计新型amp的有前途的方法。
4. AMP开发的重要限制包括非特异性,不希望的物理化学性质,未知的作用机制,肽合成的高成本以及工业废物的产生,ML旨在克服这些限制。
引言
AMPs是一种短的氨基酸序列(6-50残基),通过破坏膜、特异性靶标结合、免疫调节、抗生物膜活性和干扰代谢过程来杀死各种细菌、病毒和真菌。AMPs的发现可以追溯到20世纪40年代,到目前为止已经发现了5000多种AMPs,但只有不到50种AMPs得到了美国食品和药物管理局的批准或正在进行临床研究。由于不理想的物理化学和药物化学性质、不特定或未知的作用机制、肽合成成本高以及产生的工业废物比制造其他治疗方式产生的废物更多,抗菌肽作为治疗传染病的药物发展持续受阻。然而,抗生素耐药性仍然是一个主要的健康威胁,每年在美国造成35,000多人死亡,在全球每年造成超过127万人死亡。由于AMp的作用机制可能与传统抗生素不同,因此这些肽仍然是对抗耐药性致病菌的治疗药物的潜在来源。
将新的AMP药物引入临床需要能够快速准确地识别具有抗菌活性的肽的计算平台。这种肽可以从自然界或从灭绝的生物中开采或合成。分子动力学(MD)已被用于AMPs的设计,但它仍然是一种耗时且低通量的方法。ML已经成功并广泛地应用于计算生物学、语言处理、游戏和计算机视觉等领域的问题。ML尤其是深度学习(DL)已广泛应用于基因组研究、生物分子的结构建模、药物发现与开发,以及医疗数据分析。通过使用和学习公开可用肽的知识,AI/ML已经发现并生成了多种AMP,且已被实验验证可有效对抗靶向细菌。预计在未来几年内,基于ML的AMP设计将取得实质性进展,这一进展将有助于减少与AMP发现和开发相关的时间和成本。在这篇综述中,调查机器学习如何应用于AMP设计的各个方面,讨论了这些方法的局限性,并提出了未来的人工智能/机器学习策略。
思路:AMP定义与作用→AMP开发受限→机器学习的广泛应用和优势
多肽在机器学习中的表示
然后开始介绍多肽如何作为机器学习模型的输入特征。

全局描述符(0D)
输入表示通常是一个固定大小的向量,其值概括了相应肽的全局属性。这些性质可能包括序列组成(如氨基酸组成和出现频率)、结构特征(如α-螺旋和β-薄片)和物理化学性质(如净电荷、疏水性和两亲性)。虽然多肽和蛋白质的全局描述符的设计已得到广泛研究,但直接使用所有可用的描述符很容易导致高维向量表示,包含与建模属性冗余信息,会增加模型的复杂性,使它们偏向于捕捉输入和输出之间的虚假相关性,进而降低泛化能力。为了解决正确选择全局描述符的问题,可以使用特征选择算法来生成低维表示。总的来说,尽管构建全局描述符需要大量的人力和领域知识,但是当只有有限数量的训练数据可用时,这种类型的表示对于捕获与建模属性相关的特定信息是有用的。
基于序列的表示(1D)
给定长度为L的肽序列,用n × L矩阵存储该肽序列的序列信息,其中n为氨基酸特征个数(序列字母表的大小)。在这里,肽中第i个氨基酸的信息由矩阵的第i列(n维向量)编码,生成这些n维向量的经典方法是独热编码,这样每个氨基酸都可以被唯一地表示。当考虑标准氨基酸时,将其设置为20,可以增加字母表大小以编码非规范或化学修饰的氨基酸。对氨基酸字母表使用独热编码的一个缺点是,不能编码或表示关于氨基酸特性的附加信息,例如物理或化学特性。这一限制可以通过使用计算或实验确定的氨基酸的物理化学、生化和进化特征取代单热编码来解决。在深度学习中,每个氨基酸的n维向量(或“嵌入”)可以以数据驱动的方式学习,这样,当下游神经网络执行训练操作时,向量就会同时学习,只要训练数据足够,就可以针对感兴趣的任务对表示进行优化。总体而言,基于序列的表示是设计用于处理序列数据的ML模型的合适输入,例如循环神经网络。这种类型的表示已广泛用于肽序列生成和性质预测。
基于图的表示(2D)
在基于图的表示中,输入是由节点和边组成的图。为了表示肽,节点可以是原子或残基,边缘可以是化学键或原子或残基之间的几何距离。节点和边缘可以使用原子、残基或键类型、几何特征(如二面体和扭转角)和其他嵌入的单热编码进一步编码。与基于序列的表示相比,基于图的表示是与几何相关的ML任务的更好输入,因为它们捕获连接信息。图神经网络已应用包括蛋白质结构预测、基于结构的AMP预测,分子构象生成和抗体设计。然而,由于它们捕获更多的连接信息,图表示通常比基于序列的表示消耗更多的内存,因此计算成本更高。
三维(3D)表示
除了使用基于图的表示外,具有可用3D结构的肽可以使用体素化表示。具体来说,肽的3D结构可以被视为3D图像,并离散为固定大小的体素。对于每个体素,存储体素内原子的占用率、类型和属性的向量可以用作特征。三维卷积神经网络68,69可用于处理体素化结构,并已应用于蛋白质结合位点预测70、蛋白质-配体结合亲和力预测71和其他预测任务。
数据驱动的表征
从数据中学习特征,允许另一种类型的肽输入表示。最先进的表征学习方法利用了自监督的概念。具体来说,从大规模蛋白质序列训练的蛋白质神经语言模型中学习到的氨基酸和蛋白质特征在预测引入突变后的蛋白质结构、稳定性和功能等任务中显示出强大的预测能力。从这些语言模型中提取的特征可以直接表示肽及其氨基酸。此外,这些特征和模型可以作为下游肽相关任务的初始表示,并根据可用的肽数据进行微调。

最低0.47元/天 解锁文章

951

被折叠的 条评论
为什么被折叠?



