人类肠道微生物组+深度学习——>AMP预测

文献链接:Identification of antimicrobial peptides from the human gut microbiome using deep learning | Nature Biotechnology

Abstract

       类肠道微生物组(human gut microbiome)包含大量AMP,同时预测短序列AMP仍是一个棘手的问题。于是本文提出了一种结合了LSTM、Attention和BERT的AMP预测模型,贡献如下:

  • 在人类肠道微生物组数据中鉴别出2349个候选AMP,其中216个成功通过化学合成并有181个表现出抗菌特性(antimicrobial activity)。经过对比发现,其中大部分肽与训练集中的数据之间的同源性低于40%。
  • 其中11种最具潜力的AMP表现出对耐药性(antibiotic-resistant)的革兰氏阴性病原菌(Gram-negative pathogens)高效的抑制效果。且在老鼠肺细菌感染的模型中有效地降低细菌负荷(bacterial load)高达10倍以上。
  • 工作表明了机器学习在宏基因组(metagenome)数据挖掘潜在功能肽、在深入研究潜在AMP领域的巨大潜能。


Introduction

       首先,本文提到了耐药性病菌的高致死率这一棘手问题,特别提到其中的革兰氏阴性细菌,其对抗生素的快速适应能力一直以来受到特别关注。

       其次,文中提到很多抗生素和相关药物都是来自微生物代谢产物(metabolites),其中部分抗生素即AMP,AMP的广谱抗菌性和抑制耐药性增长等特性使得其成为新一代抗生素的代表。同时,人类肠道微生物组长期维护人体肠道生态平衡,且大量实例证明AMP能够调节生态中的微生物竞争并保持生态平衡。所以理论上,人类肠道微生物组是研究新型AMP的重要数据。

       再次,目前的AMP发现工作主要基于实验驱动,且序列短和序列低相似性也导致生物信息学方法发展屡屡碰壁(因为之前的主要是序列比对或识别保守基序或域)。而NLP方法自动学习序列特征的优点可能是一个解决这类问题的突破点,且近期的一些工作也佐证了这点。

       基于以上,本文提出了组合多种NLP结构的模型,在人类肠道微生物组数据中预测AMP。总体工作流程如下图所示,


Results

模型建立与训练

       本文使用了三种NLP结构:LSTM、Attention和BERT。模型的基础结构使用了前人文章中的NNM模型(neural network model),然后通过将核心层分别替换为LSTM、Attention和BERT,并各自使用独立的数据集训练得到预测模型(简单起见,直接记为LSTM、ATT和BERT),进一步使用平衡(balanced)数据集训练得到(b_LSTM和b_ATT)。

       在测试模型的过程中,发现这些模型对于肽序列短于50个氨基酸的预测效果比对所有长度序列的效果更好,对比如下图所示,

       这里还使用spearman‘s correlation coefficient解释了不同模型虽然在FPs和TPs上区别很大,但是这个现象并没有表现出不同模型之间的区别。(这里不是很懂解释过程)

      最后进行不同模型结合并对比以及与SOTA方法对比的实验,最终得出结合ATT、LSTM和BERT的模型表现最好。

候选AMPs获取

       AMP的提取使用的数据为人类微生物组数据(human microbiome data)。

       首先,初步的数据即总共154,723个有机体基因组,然后通过>90%完整度和一些选择方法筛选后得4,409个基因组。

       然后,使用Cell上一篇文章中的直接sORF(small open-reading frames; 5-50 AAs in length)预测方法和进一步使用本文提出的预测模型,得到20,426,401个假定AMPs(假定的原因是有些不是AMP,甚至不是蛋白质)。然后使用公开的宏蛋白质组(metaproteomic)数据和“肽相似”对比后得到2,349个长度区间为6-50AAs的候选AMPs,记为c_AMPs。

       再次,通过在不同大型队列的宏基因组数据集(metagenomic datasets from large cohorts)上使用联合网络分析(association network analysis),获取属水平(genus-level)和种水平(species-level)的c_AMPs-微生物相关性网络(correlation network)。通过分析得到241个不同水平中共同存在的c_AMPs。(这一块也不是很懂它的过程)

实验验证c_AMPs

       通过3轮化学合成后成功合成其中216个c_AMPs。然后分别在含有【Staphylococcus aureus, Bacillus subtilis, Escherichia coli DH5α and Pseudomonas aeruginosa(2G-P+2G-N)】60μM浓度的液体媒介中检验c_AMPs的抗菌活性,实验得出有181个c_AMPs具有抗菌活性。同时,还从预测出的non-AMPs中随机选取并成功合成6个做抗性检测实验,得出只有一种具有抗菌活性,说明了FN率(16.67%)还是比较低的。

  • 从实验中出现次数前10的标准下选取出抗菌活性最强的11个c_AMPs,其中7个的来源表明它们参与了病原体抑制。
  • 原来的181个c_AMPs中的157个表现出对革兰氏阴性细菌起到抑制其菌落生长作用。
  • 进一步使用其他SOTA方法来预测这181个c_AMPs,发现所有方法预测出30-178个TPs。
  • 同时,作者还对比了这些c_AMPs和真实AMP的相似性,发现相似性最高相似度只有61.4%,平均31.1%,与non-AMP也只有平均33.3%,这表明本文的预测模型预测序列时的关注点更多的是AAs之间的内在关系,而不是与训练集中真实AMP的相似性。此外,相比真实AMP,这些c_AMPs的组成部分更多地包括Glu、Lys、Asn和Gln,更少地包含Cys、His、Leu和Trp。

针对革兰氏阴性细菌的AMP实验

       前面提到11个c_AMPs对【Escherichia coli DH5α and Pseudomonas aeruginosa】都有抗菌活性,这里进一步使用其他革兰氏阴性细菌进行抗菌性测试,几乎所有都至少针对起码1种细菌起到抑制作用。此外,作者还使用大量已知的AMPs进行相同实验,测试结果为这11个c_AMPs都处在抗菌性强度前1%的水平。

       文中提到,有几种MDR(Multi-drug-resistant)革兰氏阴性细菌很受关注。本文针对这些也进行了c_AMPs的抗菌性测试实验,且得出大部分c_AMP都表现出非常好的抗菌效果。这里也说明了这些AMPs不仅与已知AMP相似度低,同时还具有广谱抗菌特性。

老鼠肺感染模型实验

       在进行老鼠实验之前,首先测试这11个c_AMPs对真核细胞的毒性以及血细胞溶解和细胞毒性试验。结合实验结果以及针对【MDR K. pneumoniae】的抗菌性测试数据,选择了c_AMP1043、c_AMP593和c_AMP575进行老鼠体内实验。以体重恢复速度为参考指标,可看出3种AMP下的回复速度很大程度快于对照组且开始恢复时间点更早,而菌落的减少速度也侧面反应了AMP强大的抗菌特性。这些实验结果表明了c_AMPs在抑制细菌繁殖同时并没有带来明显的副作用。

c_AMPs作用机制

       AMP一般通过在细菌细胞膜或细胞壁上形成气孔来溶解细胞结构。本文的11个c_AMP中最强的抗菌肽为c_AMP1043,于是设计4种不同AMP浓度的实验来具体分析细胞内哪种物质被AMP所影响。实验发现荧光强度会随着AMP浓度的增加而增强,进一步的剂量依赖的荧光强度测试说明了c_AMP1043破坏了细胞外膜的完整性,甚至能够破坏细胞壁,以及一些其他指标的测试发现其能破坏膜电位。

       其他10个c_AMP也同样进行了相同的实验,得出8个也能够破坏细胞膜,其中两种甚至也可以破坏细胞壁。另外两个则没有得出明显的结果,但是老鼠体内实验中表现出了抗菌效果。

       特别注意到,c_AMP1043实验中所使用的细菌在30天后没有表现出耐药性。作者认为这归功于在训练集设计时没有具体分划化学类别或机制,所以使得模型中的隐藏层还获取了一些其他的功能机制信息。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值