3.10 MoleculeNet
DeepChem库与MoleculeNet整套数据集。机器学习的很重要的一部分是找到合适的数据集。MoleculeNet套件是手工的整套范围的数据集,加载到DeepChem的dc.data.Dataset对象以便使用。
3.10.1为MoleculeNet贡献新的数据集
如果你要提交新的数据集MoleculeNet标杆套件,请按如下指令:
0.阅读Contribution guidelines.
1.打开一个主题来讨论你要添加到MolNet的数据集。
2.按照deepchem.molnet.load_function.load_dataset_template实施一个deepchem.molnet.load_function模块函数。指定你的数据集支持哪种特征化器,转换器,分割器(从deepchem.molnet.defaults获得)。
3.添加你的加载函数到deepchem.molnet.__init__.py以便导入。
4.准备你的数据集的压缩文件,如.tar.gz或.zip文件。可接受的文件类型包括CSV, JSON和SDF。
5.请求技术驱动委员会成员添加你的.tar.gz或.zip文件到DeepChem AWS库。修改你的加载函数以从AWS获取数据集。
6.按照PR template提交[WIP] PR(获取请求过程使用的)。
3.10.2 BACE Dataset
load_bace_classification(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP',
splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold',
transformers: List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,
str]] = ['balancing'], reload: bool = True, data_dir: Optional[str] =
None, save_dir: Optional[str] = None, **kwargs)→Tuple[List[str], Tuple[
deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]
加载BACE数据集,分类标签。
带有分类标签的BACE dataset。
参数
featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
load_bace_regression(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:
Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,
str]] = ['normalization'], reload: bool = True, data_dir: Optional[str]
= None, save_dir: Optional[str] = None, **kwargs) → Tuple[List[str],
Tuple[deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]
加载BACE数据集,回归标签。
BACE数据集为BACE-1抑制剂提供量化的IC50和定性(二值)的结合结果。
所有的数据是过去几十年科学文献的数据值,可些有详细的晶体结构。一共提供了1522个化合物,以及IC50的回归标签。本数据集推荐使用分割构件。
原始数据CSV文件包含如下列:
“mol” – 分子结构的SMILES表示
“pIC50” - IC50亲和力的负对数
“class” – 抑制剂的二值标签
参数
featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
3.10.3BBBC数据集
load_bbbc001(splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'index', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =
[], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[str]
= None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],
List[transformers.Transformer]]
加载BBBC001数据集。
该数据集包括6个human HT29 colon cancer cells图像。该任务是学习计算这些图像中的细胞数。这些数据集对于训练算法有点小,但可以作为很好的测试数据集。
参数
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
load_bbbc002(splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'index', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =
[], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[str]
= None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset, . . . ],
List[transformers.Transformer]]
加载BBBC002数据集。
该数据集包含有5个Drosophilia Kc167 cells样本相应数据的数据集。每个样品有10个字段,每个图像大小为512*512。真实的标签包含这个数据集的细胞数。该数据集的全部细节见https://data.broadinstitute.org/bbbc/BBBC002/。
参数
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
3.10.4 BBBP Datasets
BBBP是Blood-Brain-Barrier Penetration的缩写。
load_bbbp(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:
Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =
['balancing'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[
str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,
. . . ], List[transformers.Transformer]]
加载BBBP数据集。
blood-brain barrier penetration (BBBP)数据集为屏障渗透性建模和预测而设计。
由于膜将循环血液和脑的细胞间液分离,血脑屏障阻碍了大部分药物,激素,神经递质。因此透过该屏障是开发中枢神经系统药物的长期关注点。
该数据集包括2000个化合物的渗透性的二值标签。
该数据集推荐使用Scaffold分割。
原始的CSV文件包括如下列:
“name” – 化合物名称
“smiles” – 分子结构的SMILES表示
“p_np” – 渗透/非-渗透的二值表示
参数
featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
3.10.5 Cell Counting Datasets
load_cell_counting(splitter: Optional[Union[deepchem.splits.splitters.Splitter, str]] = None, transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator,
str]] = [], reload: bool = True, data_dir: Optional[str] = None,
save_dir: Optional[str] = None, **kwargs) → Tuple[List[str], Tuple[
deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]
自http://www.robots.ox.ac.uk/~vgg/research/counting/index_org.html.加载细胞计数数据集。
参数
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
3.10.6 Chembl Datasets
load_chembl(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:
Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]
= ['normalization'], set: str = '5thresh', reload: bool = True, data_dir: Optional[
str] = None, save_dir: Optional[str] = None, **kwargs) → Tuple[List[str],
Tuple[deepchem.data.datasets.Dataset, . . . ], List[transformers.Transformer]]
加载Chembl Datasets。
该数据集基于https://www.ebi.ac.uk/chembl/的22.1版本。有两个子集可供使用,通过set参数设置。“sparse"是一个244245个化合物的大型数据集。如名称所示,数据非常稀疏,大部分化合物只有一个靶点的活性数据。”5thresh"是非常小的数据集(有23871个化合物)包括最少5个靶点活性的数据。
参数
featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。
3.10.7 Chembl25 Datasets
load_chembl25(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:
Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]] =
['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[
str] = None, **kwargs) → Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,
. . . ], List[transformers.Transformer]]
加载Chembl25数据集,进行特征化,进行分割。
3.10.8 Clearance Datasets
load_clearance(featurizer: Union[deepchem.feat.base_classes.Featurizer, str] = 'ECFP', splitter:
Optional[Union[deepchem.splits.splitters.Splitter, str]] = 'scaffold', transformers:
List[Union[deepchem.molnet.load_function.molnet_loader.TransformerGenerator, str]]
= ['normalization'], reload: bool = True, data_dir: Optional[str] = None, save_dir: Optional[
str] = None, **kwargs)→Tuple[List[str], Tuple[deepchem.data.datasets.Dataset,
. . . ], List[transformers.Transformer]]
加载Clearance数据集
参数
featurizer (Featurizer or str) – 处理数据的特征化器。可选地你可以传递dc.molnet.featurizers的名称作为捷径。
splitter (Splitter or str) – 用于将数据分割为训练集、验证集、测试集的分割器。可选地你可以传递dc.molnet.splitters的名称作为捷径。如果为None, 所有的数据将包括到单一的数据集。
transformers (list of TransformerGenerators or strings) – 应用于数据的转换器。由TransformerGenerator指明或作为捷径,用dc.molnet.transformers名称。
reload (bool) – 如为真, 首次调用特征化器并分割数据将缓存数据集于磁盘后面的调用将重载缓存的数据集。
data_dir (str) – 保存原始数据的目录。
save_dir (str) – 保存数据集的目录。