- 博客(34)
- 资源 (16)
- 收藏
- 关注
翻译 DeepChem手册3.17 深度学习基础设施
3.17 深度学习基础设施DeepChem维护轻量级的深度学习基础设施共用层,它可以用于不同框架的模型的构建。损失函数和优化器可用于TensorFlow 和 PyTorch模型。3.17.1 LossesLoss类用于训练模型的损失函数。L1Loss类真实值和预测值之间的绝对值。L2Loss类真实值与预测值的差的平方。HingeLoss类Hinge损失函数其‘output’参数应包含logits, 所有的‘labels’元素应等于 0 或 ...
2021-03-31 21:55:27 205
翻译 DeepChem手册3.13转换器
3.13转换器DeepChem的dc.trans.Transformer对象是DeepChem程序的另一个构件。通常,机器学习系统是非常专属的。它们需要输入和输出来匹配一个预定的范围或遵照一个干净的数学分布。现实的数据是野的难于控制的。如果你有一个疯了的数据集需要得到统计量,你会如何?不用担心,你有Transformer对象。Contents? General Transformers– NormalizationTransformer– MinMaxTransformer– C
2021-03-20 15:36:14 384
翻译 DeepChem手册3.12 分割器
3.12 SplittersDeepChem的dc.splits.Splitter对象是分割DeepChem数据集以进行机器学习的有用工具。核心思想是,当评估机器学习模型时,从源数据产生训练集,验证集,测试集是非常有用的。训练集用于训练模型,验证集用于评价不同的模型架构。测试集最后用于评估模型的性能。dc.splits模型包括科学的分割器。很多情况下,我们需要更多的评估科学的深度学习模型比标准的深度模型,因为我们要寻找新领域的泛化能力。这里的一些分割器是有用的。ContentsGenera.
2021-03-19 20:47:43 587
翻译 DeepChem手册3.25 分子拼接
3.25 分子拼接感谢生物物理的发展,让我们可以从实验技术如晶体的Cryo-EM 或X-ray技术发现蛋白质的结构。这些结构可以强有力的帮助小分子的设计。分子拼接技术进行几何计算来找到小分子与研究的蛋白质在合适的结合口袋(即, 蛋白持中的一个区域有一个沟小分子停留在那里)中的相互作用的“结合姿势”。关于拼接的更多信息,请看Autodock Vina的论文:Trott, Oleg, and Arthur J. Olson. “AutoDock Vina: improving the speed and
2021-03-15 19:57:18 794
翻译 DeepChem手册3.23 Metalearning
3.23 Metalearning科学领域的机器学习最大的困难是缺乏足够的数据。有时实验很慢而且贵,没有简单的方法来获取更多的数据。如何办?这个模块包含大量技术来处理少量数据。传统的说“Metalearning”指“学习的学习”技术,但是这里我们指任何的用少量数据进行有效学习的技术。3.23.1 MetaLearner这是一个metalearning算法的抽象超类。class MetaLearner可用MAML 算法的模型和数据。为了使用MAML,创建这个类的子类定义要解决.
2021-03-12 20:09:47 171
翻译 DeepChem手册3.10 MoleculeNet
3.10 MoleculeNetDeepChem库与MoleculeNet整套数据集。机器学习的很重要的一部分是找到合适的数据集。MoleculeNet套件是手工的整套范围的数据集,加载到DeepChem的dc.data.Dataset对象以便使用。3.10.1为MoleculeNet贡献新的数据集如果你要提交新的数据集MoleculeNet标杆套件,请按如下指令:0.阅读Contribution guidelines.1.打开一个主题来讨论你要添加到MolNet的数据集。2.按照d
2021-03-12 20:08:09 2049
翻译 DeepChem手册3.9数据
3.9数据DeepChem的dc.data提供处理数据的APIs。如果你的数据存贮于CSV和SDF文件,你可以使用数据加载器(Data Loaders)。数据加载器读取数据,并将数据转换成特征(如,SMILES到ECFP),并将特征保存到数据集类。如果你的数据是pthon对象,如Numpy数组或Pandas数据框,你可以直接使用Datasets。Contents Datasets– NumpyDataset– DiskDataset– ImageDataset Data ..
2021-03-11 22:02:08 645
翻译 DeepChem手册3.14 Model类
3.14 Model类DeepChem 维护大量的科学计算模型。 DeepChem’s注重于便于科学应用,所以我们支持不同的机器学习框架 (目前有scikit-learn,xgboost, TensorFlow以及PyTorch) 因为不同的框架或多或少的适合于不同的应用。3.14.1 Model菜单如果你刚开始DeepChem,你可能对该基础感兴趣。模型菜单列出了多种定制的DeepChem模型。注意有些打包如SklearnModel 和 GBDTModel打包了外部的机器学习库不包括在内,但本
2021-03-11 21:55:20 258
翻译 DeepChem手册3.22 超参数优化
3.22 超参数优化机器学习的重要方面是超参数优化。许多机器学习模型有很多超参数控制模型。这些超参数不会被学习算法直接学习,必须以选项的形式设置。dc.hyper模块包含了超参数优化工具。DeepChem的超参数优化算法是简单的且是单线程运行的。它们不想产生梯度超参数工具,但是当你开如探索参数空间时有用的第一个工具。随着你应用需求的增长,我们推荐切换到更重量级的超参数优化工具。3.22.1 超参数优化APIclass HyperparamOpt(model_builder: Callable[[
2021-03-11 21:41:33 503
翻译 DeepChem手册第三章3.4示例
3.4示例首先,需要导入库>>> import numpy as np>>> import tensorflow as tf>>> import deepchem as dc>>>>>> # Run before every test for reproducibility>>> def seed_all():... np.random.seed(123)... tf.random.
2021-03-06 20:27:00 375
翻译 DeepChem手册第三章3.3教程
3.3 教程如果你刚接触DeepChem,你可能了解基础。DeepChem是什么?为什么你要使用它?简单的回答案DeepChem是一个科学的机器学习库。(“chem”提示一个历史事实是DeepChem早期是注重于化学应用的,但是我们现在更广泛的支持所有的科学应用。)为什么你想用DeepChem而不是其它的机器学习库呢?简单的说,DeepChem维护了大量的便于科学的深度学习的工具包括加载科学数据集,过理它们,转换它们,分割它们,学习它们的类。除此之外DeepChem使用大量的其它机器学习框架如sc
2021-03-06 20:24:31 585
翻译 DeepChem手册第三章3.1 DeepChem的安装
第三章 关于我们DeepChem是由开源贡献者团队管理的。任何人都可以自由的加入和贡献!DeepChem我每周开发者会议。你可以在我们的论坛找到会议记录。DeepChem开发者会议是公开的!如果要听会议,请发送给 email X.Y@gmail.com,介绍你自己并申请会议邀请,其中X=bharath 以及Y=ramsundar。重点:加入我们的社区gitter来讨论DeepChem。登录我们的论坛讨论研究,开发,一般的问题。3.1 安装3.1.1 安装Stable版本在安装deepch
2021-03-06 20:21:09 1910
翻译 DeepChem手册第二章:快速开始
安装和运行DeepChem最快速的方法是使用 Google Colab。选择一个DeepChem教程或者这个论坛的Colab快速开始指南贴子。 如果你要在本地安装DeepChem,我们推荐你安装nightly版本的deepchem和RDKit。 RDKit是软要求的包,但是有很多方法都要依赖于它。pip install tensorflow==2.3.*pip install --pre deepchemconda install -y -c conda...
2021-03-05 20:31:47 327
翻译 DeepChem手册第一章:DeepChem是什么
DeepChem项目的目标是构建高质量的工具以普及科学领域的深度学习。早期的DeepChem项目关注于化学领域的深度学习应用,但是项目慢慢的发展到科学领域的深度学习应用。 DeepChem的核心仓库是单一的库用于组织DeepChem的整套科学工具。随着项目的成熟,更专业的工具将会放在目标库。DeepChem主要是由Python开发的,但是我们也正尝试对其它语言的支持。 你能用DeepChem做哪些事情呢?以下是一些例子: 预测小分子类药分子的溶解度...
2021-03-05 20:29:31 1956
翻译 DeepChem教程27: 使用强化学习来玩Pong
本教程我们展示一下用强化学习来训练agent玩Pong。这个任务并不与化学直接相关,但是视频游戏可以展示强化学习技术。安装你应该用pip install 'gym[atari]'安装gym。(我们需要修饰器因为我们将使用atari游戏)。In[]:!curl -Lo conda_installer.py https://raw.githubusercontent.com/deepchem/deepchem/master/scripts/colab_install.pyimport c..
2021-03-04 20:13:14 800 2
翻译 DeepChem教程25:深度学习的不确定性
对于深度学习模型的常见批评是它们像黑盒子一样工作。一个模型产生输出,但并没有足够的内容来解释它们的正确性。模型的预测的结果是否可靠?是否有一些预测结果比另一些结果更可靠?如果对于有些数值模型的预测结果为5.372,你会认为这个值是5.371和5.373的中间值?还是2 和8?在某些领域这情况可能足够好,但要科学领域并不足够好。对于模型预测的值我们需要也想要评估这个值的不确定性以致我们知道我们能基于它做什么结论。DeepChem让评估预测输出的不确定性评估很容易。(起码对于它所支持的模型是这样—不是所有的
2021-03-04 20:11:35 953 4
翻译 DeepChem教程24: 模型可解释性介绍
前面的几节,你已经学习了如何用DeepChem 训练模型解决不同的问题。但是我们还没有真正的学习模型的可解释性问题。建模时我们通常要问一些问题—模型工作得好不好?我们为什么要相信模型?我作为一个数据科学家的回答是,“因为我们有明显的证据证实模型对于手头的测试集是切合实际的“。但通常这不足于说服领域专家。LIME是一个能帮助你解决这一问题的工具。它用局部的特征空间扰动来确定特征的重要性。本教程,你将学习如何使用LIME和DeepChem来解释我们的模型学习到了什么。如果这个工具以人类可理解的.
2021-03-04 20:10:11 591 1
原创 DeepChem教程23:合成的可行性
运行大规模仿真时,合成可行性是个问题。通常仿真的分子都很难合成因此不值得关注,尽管它们在生物学上有很好的化学性质。本教程学习如何训练ScScore模型。该模型的思想是训练成对的分子,其中一个分子比另一个分子更复杂。然后用神经网络来打分,以试图排序分子对。最后的结果的一个可以给出分子相对复杂度的模型。论文用reaxys的每个反应训练,声明产品比反应更复杂。由于训练集很贵,我们用人工的分子来训练,如果SMILES字串越长我们就认为分子越复杂。实际上你可以任意使用复杂性的量度。本教程,我们使用Tox2
2021-03-04 20:08:25 395 1
翻译 DeepChem教程21: Bioinformatics
学习到目前为止,我们主要是解决化学信息学的问题。我们感兴趣于如何用机器学习技术来预测分子的化学物征。本教程,我们将移动一点点,看如何用经典的计算机科学技术和机器学习来解决生物信息学的问题。为此,我们要使用免费的biopython库进行基础的生物信息学工作。本教程的很多材料都来自官方教程[Biopython tutorial]http://biopython.org/DIST/docs/tutorial/Tutorial.html).我们强烈推荐你在学习完本教程你阅读这些官方教程。In[1]:.
2021-03-04 20:04:24 1453 2
翻译 DeepChem教程19: 用Zinc筛选HIV抑制剂
本教程我们学习如何用DeepChem (ZINC)有效的筛选大的化学合数据库。用机器学习筛选大型化合物库是直接受CPU约束的平行计算问题。我要使用的代码用例假定可用的资源是在个大的机器(像AWS c5.18xlarge),但是其它是统也是可交换的(如超级计算群)。更高层次的,我们将要做的是:用标签数据创建机器学习模型。 转换ZINC到“工作单元” 加载“工作单元”到“工作序列”。 “从工作序列”中使用“工作单元”。 获得结果。这个教程与前面的教程的不同之处在于它设计来运行在AWS上而不是Goo
2021-03-04 20:01:28 2071 5
原创 DeepChem教程16:为分子学习无监督的 Embeddings
这个教程我用SeqToSeq模型来产生指纹以分类分子。这是基于以下论文的,尽管一些实施细节不同:Xu et al., "Seq2seq Fingerprint: An Unsupervised Deep Molecular Embedding for Drug Discovery" (https://doi.org/10.1145/3107411.3107424).用SeqToSeq学习Embeddings有许多的模型要求输入有固定的长度。由于分子的原子数量和键的数量变化,使得很难应用模型。我们要一
2021-03-03 20:54:40 485 1
翻译 DeepChem教程15: 用MNISTT数据集训练GAN网络
这个教程我们用MNIST数据集来训练成生对抗网格(GAN)。MNIST是28x28像素手写数字图像的大的集合。我们将训练网格来产生新的手写数字图像。In[]:!curl -Lo conda_installer.py https://raw.githubusercontent.com/deepchem/deepchem/master/scripts/colab_install.pyimport conda_installerconda_installer.install()!/root..
2021-03-03 20:52:43 621 1
翻译 DeepChem教程14:用Atomic Convolutions建立蛋白-配体相互作用模型
本教程介绍Atomic Convolutional模型。我们会看到Atomic Conv Model的结构,并写一些程序来运行Atomic Convolutions。结构ACNN直接使用分子的局部3维结构来分层学习更复杂的化学特征,通过头对头的方式同时优化模型和特征化过程。原子型卷积使用近邻矩阵以从一个输入表示(迪卡尔原子坐标)提取编码局部化学环境提特征而不需要空间位置。以下是构建ACNN结构的方法:距离矩阵。距离矩阵R由迪卡尔原子坐标X构建。它从距离张量D计算距离。距离矩构建接收输入a (
2021-03-03 20:50:58 389 1
翻译 DeepChem14:条件生成对抗网络
生成对抗网络是一种产生模型。它由两部分组成,分别称为“生成器”和“分判器”。生成器以随机值为输入,并将输入转换为可以作为训练数据的输出。分判器将样作为输入并尽量区分真实的训练样本和生成器产生的样本。它们两一起训练。分判器越来越能判别真假,生成器越来越能骗分判器。条件GAN (CGAN)允许增加输入到生成器和分判器使它们的输出是有条件的。例如,可能是类的标签,GAN试图学习不同类的数据分布的变化。例如我们将产生包含2D椭圆的数据分布集,位置、形状和方向是随机的。每个类对应不同的椭圆。我们来随机的产生椭
2021-03-03 20:48:50 388 1
翻译 DeepChem教程13:蛋白—配体相互作用建模
这个教程我们将教你使用机器学习模型和分子拼接方法来预测蛋白—配体复合物的结合能。记得配体是一些与蛋白结合(通常非共价键合)的小分子。分子拼接进行几何计算以找到小分子与蛋白结合口袋(即,蛋白质的局部有个沟,小分子可以停在那里)相互作用的结合位点。蛋白质的结构可以通过Cryo-EM或X-ray晶体学技术实验确定。这对基于结构的药物发现来说是非常强大的工具。对于分子拼接的更多信息,可以参阅AutoDock Vina paper和deepchem.dock文档。有许多图形用户接口和命令行接口(如AutoDoc...
2021-03-03 20:46:11 3281 6
翻译 DeepChem教程11:实施多任务学习
这个记事本我们来学习用MUV [1]创建多任务模型。其目的是展示多任务学习如何在小量或不平衡数据时提高性能。MUV 数据集是分子设计竞赛的标杆,共有17个靶点,每个靶点只有少数的几个活性化合物。共有93,087个化合物,但是每个任务都只有不超过30个活性化合物,有些更少。用这么少的正样本训练模型是非常有挑战的。多任务模型通过训练一次性预测所有不同的靶点模型解决这个问题。如果特征对于预测某个任务有用,通常对于预测其它几个任务也有用。每增加一个任务就使得学习重要的特征变得容易一些,它可以提高其它任务的性能。
2021-03-03 20:43:40 724 2
翻译 DeepChem教程10:从实验数据产生更可靠性的数据集
本教程我们来看一下如何从实验数据产生新的数据集。如我们将要看到的,产生数据集对象的机量只是一小部分过程。许多真实的数据集在它们适用于训练模型前需要清理和QA。处理数据文件假定你的实验室的同事给你数据。你想用这些数据来构建机器学习模型。你将如何变换这些数据到适合于创建机器学习模型的数据集呢?从新的数据建立模型是有些挑战的。可能有些数据不是以便以使用的方式记录的。另外,有些数据有噪音。这通常随着大量外部变化的生物测定,收集样本的成本和困难而发生。这是个问题,因为你不想让你的模型拟合噪音。因此,有
2021-03-03 20:41:33 1091 2
翻译 DeepChem教程 6:图卷积
DeepChem教程 6:图卷积本教程我们学习更多的“图卷积”。处理分子数据有一个最为强大的深度学习工具。原因是分子可以很自然的看作图。注意,这类的标准的化学图形我们从高中就开始用于可视化分子作为图。在本教程的后一部分,我们将更详细的探求这种关系。我们将更深入的理解这些系统是如何工作的。什么是图卷积?考虑一下一种常用于处理图像的标准的卷积神经网络。每个像素有一个矢量数值,如红、绿、蓝通道值。数据传递给一系列的卷积层。每一层组合数据自像素及它的邻居以产生新的像素的矢量数据。早期的层检测局部的模式,
2021-03-02 21:41:19 1048
翻译 DeepChem教程9:高级模型训练
DeepChem教程9:高级模型训练到目前为止我们的模型训练按照如下简单的过程:加载数据集,创建模型,调用fit()函数,评估模型,完成。这对于举例来说是可以的,但是实际的机器学习项目中过程通常更复杂。本教程我们看一下更真实的模型训练工作流程。超参数优化我们从加载HIV数据集开始。它基于是否抑制HIV复制酶来分类40000个分子。In[1]:import deepchem as dctasks, datasets, transformers = dc.molnet.load_..
2021-03-02 21:35:25 1121
翻译 DeepChem教程8:处量分割器
DeepChem教程8:处量分割器使用机器学习时,你通常要将你的数据分为训练集,验证集,测试集。MoleculeNet加载器可以自动的处理这些。但是你要如何分割数据呢?这个问题刚开始看简单,但是后面会变得复杂。有许我种方法分割数据,选择哪一种方法会对结果的可靠性造成很大的影响。本教程介绍一些DeepChem提供的分割方法。Splitters在DeepChem中,将样本分为多个数据集的方法由Splitter对象确定。对你的数据选择合适的方法是非常重要的。否则,你的训练模型看起来会比它实际工作得要好
2021-03-02 21:33:37 995 3
翻译 DeepChem教程7:深入了解分子特征化
DeepChem教程7:深入了解分子特征化用分子数据进行机器学习的重要步骤是转换数据到适合机器学习算法的形式。这个过程广泛的称这“特征化”,包括转换分子到某种形式的矢量或张量。有不同的方法来完成,特征化的选择通常取决于要所解决的问题。我们已经看到过两种方法:分子指纹和用于图卷积的ConvMol对象。这个教程我们来看一下别的特征化。Featurizers在DeepChem中,分子(或其它输入)特征化的方法由特征化器对象定义。有三种使用特征化器的方法。当使用MoleculeNet加载器函数时,你
2021-03-02 21:31:36 2166
翻译 DeepChem教程5:用TensorFlow和PyTorch创建模型
到现在为止,我们使用的是DeepChem提供的标准模型。这对于许多应用来说是好的。但是很快你就会希望用你自己定义的框架创建你自已的模型。DeepChem提供了TensorFlow (Keras) 和PyTorch集成,所以你可以使用这两个框架来创建模型。 实际上,DeepChem中使用 TensorFlow 或 PyTorch模型有两种不同的方法。这取决于你想用TensorFlow/PyTorch APIs还是DeepChem APIs来训练和评估模型。对于前者,DeepChe...
2021-03-01 20:35:21 1207
原创 DeepChem教程4:分子指纹
分子可以用多种方法表示。本教程介绍一种方法叫做"分子指纹(molecular fingerprint)",这是一种简单的表示主法,对于小分子类药物来说通常工作得很好。In [1]:import deepchem as dcdc.__version__Out[1]:'2.4.0-rc1.dev' 什么叫指纹? 深度学习几乎总是以数组作为它们的输入。如果我们要用深度学习来处理它们,我们需要一个或多个数组来表示分子。许多(不是所有)的模型要求它们...
2021-03-01 20:29:22 8447 6
翻译 DeepChem教程3:MoleculeNet介绍
DeepChem最强大的特征之一是它内置了许多数据集供使用。DeepChem开发者社区维护了MoleculeNet整套数据集,它维护了大量的不同不同科学数据集以供机器学习应用。原始的MoleculeNet有17个数据集大部分关注于分物特征。在过去的几年里,MoleculeNet的发展扩大了科学数据集以便扩大其用途以及便以科学的机器学习工具的发展。这些数据集补充到DeepChem的后面所以你可以dc.molnet submodule通过方便的访问它们你已经看到过这些加载器的一些例子,因为你已过...
2021-03-01 20:16:56 2587
Windows下两个ESP-IDF版本切换
2024-09-20
响应面分析之python方法(二)二阶曲面分析
2024-08-07
响应面分析之python方法(一)最速上升法
2024-08-07
Tensorflow人工神经网络详解
2023-05-10
Tensorflow卷积神经网络详解
2023-05-08
tensorflw循环神经网络详解
2023-05-04
TensorFlow基础
2023-04-26
TensorFlow编程环境搭建
2023-04-26
DeepChem教程(基于python)
2023-01-12
Python与数据分析基础源码
2022-09-27
jStat中文参考手册
2022-09-13
WordBook1.1电子书
2010-02-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人