人工智能辅助药物发现(5)药物属性预测

药物属性预测概述

在与药物相关的应用场景中,有两个问题具有实际应用价值与意义:

  • 第一个问题是预测药物分子的性质,对于给定药物分子,通过分析其性质,如水溶性,似药性或者与特殊蛋白的亲和性,可以大幅度降低相关测定的投入。
  • 第二个问题是基于特定属性的药物分子优化,在药物设计中,对于指定属性的化合物的筛选仅局限于已知的数据集,通过条件生成模型生成潜在的具有指定属性的药物分子,可以加速药物研发。

准确预测药物属性不仅可以帮助确定药物的功能,还可以应用于药物设计中的药物属性定向优化。

目前的药物属性预测工作包含:高质量的数据集,适当的分子表示,优秀的学习算法,严格的性能评估指标。基于AI的模型可以将药物表示输入神经网络,捕获化学结构和生物活性之间的相关性,这种做法优于传统的QSAR(定量构效关系)模型。

在药物属性预测模型中,虚拟筛选目前已经广泛应用于预测生物活性,生物分布以及药物的物理特性。如果虚拟筛选能够成功应用于药物研发过程中,那么这些虚拟筛选方法就可以通过减少实验筛选的时间加速药物发现过程。

目前的实验筛选方法只能获得数百万个分子,而虚拟筛选能够在短时间内对数十亿个分子进行评估。在虚拟筛选的过程中,人工智能算法用于学习特定的分子亚结构和目标特性之间的关联,这类似药物化学家分析分子的方法

根据场景,需要预测的属性各不相同,比如量子力学属性,物理化学属性,生物物理学属性和生物效应类属性。

  • 量子力学属性包括原子坐标,能量以及电荷等属性;
  • 物理化学属性包括水溶性,极性表面积,生物利用度,疏水性等(其中水溶性最常用);
  • 生物物理学属性包括亲和力,活性;
  • 生物效应类属性包括毒性等;

多肽类药物作为近年来新兴的一种药物,具有较低的免疫原性,较高的生物活性,安全性。在治疗心血管和免疫等方面疾病,对肿瘤和细菌抑制方面具有显著疗效。因此,预测多肽类药物的属性具有重要的医学研究价值。

多肽药物属性预测

多肽通常是一段肽链,其大小通常大于小分子化合物(分子量在500以内),但小于蛋白药物(分子量在5000以上),作为信号分子广泛存在于生物细胞中。获取多肽的方式分三种:

  • 从动物,植物或微生物获取:提取天然多肽;
  • 酶解蛋白质:特定酶水解蛋白质,可以得到各种各样的多肽物质;
  • 人工合成;

多肽药物相比蛋白药物具有较低的生产复杂性和较低合成成本。

多肽属性预测方法

测序技术的发展提供了大量蛋白质数据,但是大部分蛋白质序列的功能还没有被实验测定。即在大规模蛋白质序列中,蕴含有大量具有治疗属性的多肽没有被发现。因此我们需要多肽属性预测方法,分为四类:基于序列对比,基于模糊逻辑,基于语言生成模型,基于机器学习。

基于序列对比的方法

序列对比首先按照一定的规律将待测序列和已知序列进行排列,然后比对待测序列和已知序列得到结果。通过序列之间的相似性确定查询多肽数据的属性。

序列对比方法没有一个度量相似性是否合理的指标,而且通常查询数据与已知某类特性的多肽之间多少存在差异,方法精度有待提升。

基于模糊逻辑模型的方法

基于模糊逻辑模型的方法中,模糊规则的设计和定义简单,无需建立复杂精确的模型,但需要用经验建立隶属度函数,因此缺乏泛化性。

基于语言生成模型的方法

组成多肽的每种氨基酸分别用不同的字母表示。因此,可以用一个按一定规律排列的字母字符串表示一条多肽序列。基于语言模型的方法将多肽序列看作由不同字符组成的句子,从中学习并建立有效的语法规则,进而用于下游预测任务。

由于基于语言模型的方法对训练数据中的现有语义模式具有依赖性,导致在与训练数据中语义模式不一致的新样本上预测能力较弱,难以发现和识别出包含新语义模式的多肽。

基于机器学习方法

目前,大多数研究将多肽的属性预测看作分类问题,并采用有监督学习。基于已知样本数据中的有效信息挖掘,机器学习模型构建了分类器预测多肽类型,实现多肽的类别预测。目前主要是基于序列的预测算法处理多肽识别问题。

研究难点

目前对于多肽预测存在以下挑战:与蛋白质不同,多肽序列很短。对于这样的多肽,可以使用的背景信息不多。不容易捕获有效且具有判别性的多肽特征去区分不同的多肽。

尽管目前已经有一些特征表示方法从不同角度捕获多肽的特异性,比如二级结构信息,初级序列信息,谱图信息等,但如何将不同类型的信息用于特征表示是一个挑战。

其次,目前实验标注的多肽样本数量有限,特别是一些多肽类型,例如抗病毒肽,抗癌肽等,如何对小样本多肽建立鲁棒的计算模型是一大难点。

最新进展

元学习多肽药物生物活性预测

识别各种生物活性肽的工作取得了进展,但依然存在以下问题:

  • 目前的标记样本容量少,监督学习模型缺乏鲁棒性,存在过拟合问题;
  • 目前缺乏通用的计算方法同时准确预测不同多肽的生物活性,受制于监督学习的限制,不能挖掘新的多肽生物活性。
  • 目前的大多数机器学习方法依然依赖特征工程。

MIMML是一个通过联合优化最大互信息与最小化交叉熵改进ProtoNet的模型,优点如下:

  • MIMML专门为生物活性肽的挖掘和预测而设计;
  • MIMML基于embedding技术而不是特征工程;
  • 在元学习前在所有基类上监督学习;
  • 使用来自各种功能肽的少量样本,通过元学习获取判别信息。

多肽毒性预测

相比于小分子药物,多肽大多是通过水解或肾过滤被人体清除,氨基酸为其水解产物,因此多肽类药物的代谢产物毒性很低。自胰岛素诞生以来,已经有80多种多肽药物进入市场用于疾病治疗。

大部分多肽对人体无害,但也存在一些有毒的多肽,比如蛇毒和河豚毒素。为了用AI鉴定多肽毒性,我们将多肽毒性预测视为二分类问题,已知的有毒多肽作为正样本,其他多肽为负样本。现有方法分为两类:

  • 基于相似性的方法,这类方法对于相似性的标准不固定,并且不易处理大量数据;
  • 基于机器学习方法,这些方法可以自动提取多肽的序列特征。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值