本文始发与公众号 AI智药,如需转载联系作者
综述
随着更强大的硬件和方法的出现,机器学习(ML)方法新药研发中的应用出现了显着增长,特别ADMET性质预测方面ML方法已经成为重要的手段。本文介绍了薛定谔自动化ML模型构建引擎DeepAutoQSAR通过构建和测试大规模数据预测化合物的ADMET性质。同时,还将DeepAutoQSAR的性能与两个开源项目ChemProp和DeepPurpose的性能进行了比较。DeepAutoQSAR在22个案例中的20个是表现最好的方法之一,在其中9个中明显优于其他方法。对于其他11种情况,至少有一种其他测试方法的性能相似。DeepAutoQSAR在准确性、对化学数据转移的稳健性和标签效率方面的持续发展和进一步改进,将使药物发现的速度更快、成本效益更高,最终导致新疗法的引入。
数据集展示
1、ADMET数据集的集合来自TDC数据存储库,表内提供了数据集缩写代码、ADMET分类和预测任务的高级描述。
2、回归数据集,数据集大小、精度测量方法、训练/测试拆分选择方法
3、 分类数据集,数据集大小、精度测量方法、训练/测试拆分选择方法
测试方法
DeepAutoQSAR 的程序工作流程始于数据预处理和交叉验证拆分,以及模型集成选择的设置过程。然后训练独立的 ML 模型以优化保留分子的性能,从而产生在推理时具有强大性能的最终模型集合。
结果展示
1、吸收数据集的性能结果
2、分布数据集的性能结果
3、代谢数据集的性能结果
4、排泄数据集的性能结果
5、毒性数据集的性能结果
结果统计
1、DeepAutoQSAR和ChemProp在具有相关不确定性的所有端点上的相对性能。左上角显示了由MAE衡量的任务的性能,越低越好。右上方和下方的行图显示了由Spearman相关性、AUPRC和AUROC测量的性能,其中越高越好。(颜色表示数据集的ADME/Tox名称)
2、DeepAutoQSAR和ChemProp在具有相关不确定性的所有端点上的相对性能。左上角显示了由MAE衡量的任务的性能,越低越好。右上方和下方的行图显示了由Spearman相关性、AUPRC和AUROC测量的性能,其中越高越好。(颜色表示数据集的ADME/Tox名称)
3、DeepAutoQSAR DeepPurposeKit2D+MLP之间每个数据集的性能比较
4、DeepAutoQSAR和DeepPurposeCNN之间每个数据集的性能比较
5、DeepAutoQSAR DeepPurposeMorgan+MLP之间每个数据集的性能比较