在药开发中,根据化学式预测小分子的溶解度,是开发药物小分子时要考虑的非常重要的性质:如果一种药物的溶解度不够,你可能无法将足够的药物输送到患者的血液中产生治疗效果。
我们需要的第一件事是一个真实分子的测量溶解度的数据集。DeepChem的核心组件之一是MoleculeNet,这是一个多样化的化学和分子数据集合集。在本教程中,我们可以使用Delaney溶解度数据集(Delaney数据集是一个用于机器学习的分子溶解度数据集,其中包含了1128个小分子的化学结构式和相应的实验测得的溶解度数据。这些小分子是由John Delaney收集并在他的博士论文中使用的。这个数据集已经成为机器学习和深度学习中广泛使用的基准数据集之一,被用来评估化合物溶解度预测模型的性能。)。该数据集中的溶解度属性是以log(solubility)的形式报告的,其中溶解度以摩尔/升为单位进行测量。
表1 Delaney数据集示例
import deepchem as dc
# 加载Delaney数据集,并使用GraphConv对每个分子的化学结构进行特征提取
# tasks: 元素的列表,元素是目标变量的名称。在Delaney数据集中,目标变量为溶解度。
# datasets: 一个包含训练集、验证集和测试集的字典。在默认情况下,这个数据集将按照80:10:10的比例进行划分。