为什么训练时测试准确率大幅度波动_Nature Mach Intell|类药性预测准确率有极限...

2f2f967e5dccdbbb84befe2a52d3a0ad.png

引言

在药物发现的早期阶段,如何对没有成药前途的分子进行尽早排除以避免不必要的生物学和临床试验至关重要,类药性则是其中一个关键概念。关于类药性的研究已持续了几十年,最早可追溯到上世纪80年代的Lipinski“类药五规则”(Ro5)。但随着药物研究的进一步发展,Ro5这类启发性的类药性判别方法受到越来越多的质疑。此后在2012年Bickerton提出的QED(类药性的定量估计)方法则慢慢替代了Ro5,尤其是在机器学习领域,如分子生成模型。本研究中,来自波兰科学院的Bartosz A. Grzybowski搭建了几种不同的深度学习模型(多层感知机、图卷积网络、自编码器)来进行了类药性预测,同时也对比了多种非药数据集(NOC、PDB及ZINC)和多种分子表示(RDKit、Mold2、MCS、ECFP4、Mol2vec)对预测准确率的影响。作者也使用这些模型的贝叶斯神经网络对预测结果的确定性进行分析,并整合多个模型进行预测使预测准确率达到了93%。此外,作者通过对模型输出的随机性误差和知识性误差进行分析得出结论:93%的类药性预测准确率很可能是当前数据集的极限。

数据集准备

药物数据集由2,136个FDA批准的小分子药物组成(此后简称为DRUGS)。DRUGS来自DrugBank的 2,635条相关数据,作者从中过滤掉了(1)无机化合物和重金属配合物,(2)平衡离子(包括富马酸盐和柠檬酸盐)和(3)10个包含128个以上原子的分子(由于图卷积网络(GCNN)无法计算过大的分子),剩余分子被中性化并转化为Canonical SMILES。

作者在研究中使用了3个非药数据集:(1)ZINC15,约1.9千万个有机化合物;(2)Network of Organic Chemistry(NOC),包括来自Reaxys和专利的约6百万个分子;(3)来自PDB的约1.3万个配体。3个非药数据集均经过与DRUGS类似的清洗与预处理及去重,并删去与DRUGS中的药物相似的分子(ECFP4的Tanimoto相似性大于0.85)。

作者选择了5种分子表示进行研究:(1)RDKit中的200个描述符;(2)777个Mold2描述符;(3)2,048位ECFP4指纹;(4)一个二进制向量,其中每维表示在药物和非药物数据集中最频繁出现的3,000个最大通用子结构(MCS)之一的存在与否;(5)分子图的张量表示,每个分子使用两个矩阵表示:原子特征矩阵和一个邻接矩阵。对RDKit和Mold2两种分子表示,在模型训练前在训练数据集上进行了标准化,包括删除方差为零(即对于所有化合物为零或完全相同)的描述符及减去均值并除以标准差。对分子图的张量表示,其原子特征矩阵包含了原子杂化和与每个重原子相连的氢原子数这两个特征。

由于非药数据集比DRUGS的分子数目大几个数量级,因此阴性数据集必须加以平衡。除非另有说明,否则作者将对较大的(非药物)集合进行随机下采样;也就是说,作者随机抽取了与DRUGS大小相同的非药样本,并对多个(通常是三个)样本计算平均准确率。在模型选择期间,将包含药物和相等数量的非药物的每个平衡数据集按9:1的比例分为训练集和测试集,并将较大的部分用于五重交叉验证。测试集用于测试在整个训练集上训练的分类器(即用于交叉验证的分类器)的效果。

结果与讨论

评价QED预测效果

类药性的预测之所以必须使用多参数模型是因为类药与非类药分子无法简单的通过任何单个描述符区分(图1)。作者首先测试了目前广泛使用的多参数模型QED对药物分子与非药分子的区分能力,并以QED作为本篇研究的基线模型。如表1所示,QED准确率在42-57%的范围内,因阴性数据集而异。作者自己尝试复现当初发表QED模型的论文中的结果,得到的准确率为65%左右。这些相对普通的准确率数值体现了不同数据集中QED分布之间的显着重叠(图2)。

8b3ee450c4e738fa7bbdc005d01765d3.png

图1 药物分子与非药分子间常见理化性质的分布比较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值