阅读笔记-分子图benchmark

新分子设计的模型:(1)分子生成,(2)分子评分方法,(3)针对评分函数优化或搜索更好分子的方法

1、ogbn-proteins: Protein-Protein Association Network

ogbn-proteins:无向,带权重,多种边类型的图结构。节点代表着蛋白质分子,边表示蛋白质之间不同类型的有生物学意义的联系,例如物理相互作用、共表达或同源性。所有的边都有8维特征,每个维度代表一个关联类型的强度,取值范围在0到1之间(值越大,关联越强)。蛋白质来源于8种物种。其任务是在一个多标签二元分类系统中预测蛋白质功能的存在,该系统中总共有112种标签需要预测。这一表现是根据这112项任务中ROC-AUC的平均分来衡量的。

2、ogbl-ddi: Drug-Drug Interaction Network

ogbl-ddi:是无权重无向的同质图,代表药物-药物相互作用网络。每个节点都代表着一个专业的药物。边表示药物之间的相互作用。这个作用可以解释为一种现象,当这两种药物同时使用时所产生的联合效应与这两种药物单独使用时所产生的的预期效应有很大的不同。
任务是在已知的药物-药物相互作用信息的基础上预测药物-药物的相互作用。评估指标与ogbl-collab相似,该模型将真实药物相互作用的排名高于非相互作用药物对。

3、ogbl-biokg: Biomedical Knowledge Graph

ogbl-biokg:ogbl-biokg数据集是一个知识图谱(KG),它是使用来自大量生物医学数据存储库的数据创建的。它包含五种实体:疾病(10687个节点),蛋白质(17499个节点),药物(10533个节点),副作用(9969个节点),蛋白质功能(45085个节点)。有51种类型的有向关系将两种类型的实体联系起来,包括39种药物相互作用,8种蛋白质相互作用,以及药物,药物副作用,药物,功能,功能关系 。 所有关系均建模为有向边,其中连接相同实体类型(例如蛋白质-蛋白质,药物-药物,功能-功能)的关系始终是对称的,即,边是双向的。
这个数据集与生物医学和基础医学研究相关。在生物医学方面,该数据集使我们能够更好地了解人类生物学,并产生预测,从而指导下游的生物医学研究。在基本的ML方面,数据集显示了在处理噪声、不完整的KG时可能存在矛盾的挑战。这是因为ogbl biokg数据集涉及从分子尺度(例如,细胞内的蛋白质-蛋白质相互作用)到整个人群的异质相互作用(例如,某个国家的患者所经历的有害副作用的报告)。此外,KG中的三元组来自具有各种置信水平的来源,包括实验性的读数、人工编制的注释和自动提取的元数据。

任务是根据给定的训练三元组来预测新的三元组。

3、ogbg-ppa: Protein-Protein Association Network

ogbg-ppa: ogbg-ppa数据集是从1581个不同物种的蛋白质-蛋白质关联网络中提取的一组无方向的蛋白质关联邻域,这些蛋白质关联网络覆盖了37个广泛的分类类群(如哺乳动物、细菌科、古生菌),并横跨生命之树。为了构建邻域,我们从每种物种中随机选择了100种蛋白质,并以每个选定的蛋白质为中心构建了2跳蛋白关联邻域.然后,我们从每个邻域中移除中心节点,并对邻域进行下采样,以确保最终的蛋白关联图足够小(小于300个节点)。每个蛋白质关联图中的节点表示蛋白质,边表示蛋白质之间有生物学意义的关联。边缘与7维特征相关联,其中每个元素取0到1之间的值,表示特定类型蛋白质的强度蛋白质关联,如基因共现、基因融合事件和共表达。
给定一个蛋白质关联邻域图,该任务是一个37向多分类方法,以预测该图源自哪个分类学组。 成功解决该问题的能力对于理解跨物种的蛋白质复合物的进化,随着时间的推移重新建立蛋白质相互作用,发现基因之间的功能性关联(甚至对于其他方面未被研究的生物)也具有意义,并且将使我们对关键的生物信息学有深刻的认识 诸如生物网络对齐之类的任务

4、GDB

GDB
GDB-11:遵循简单的化学稳定性和合成可行性规则,列举了最多11个C,N,O和F原子的有机小分子。
GDB-13:遵循简单的化学稳定性和合成可行性规则,列举了最多13个C,N,O,S和Cl原子的有机小分子。 GDB-13具有977468314种结构,是迄今为止最大的可公开获得的小型有机分子数据库。
GDB-17:药物分子由几十个通过共价键连接的原子组成。 这些分子总共可能有多少个,它们的结构是什么? 这个问题在药物化学中引起了人们的紧迫兴趣,以帮助解决药物效价,选择性和毒性的问题,并通过指出新的分子系列来降低损耗率。 为了更好地定义未知的化学空间,我们列举了1664亿个碳原子,碳原子,氮原子,氧原子,硫原子和卤素原子的17个原子组成的分子,形成了化学宇宙数据库GDB-17,涵盖的范围涵盖了许多药物和典型的铅 化合物。 GDB-17包含数百万种已知药物的异构体,包括与母体药物具有高度形状相似性的类似物。 与PubChem中的已知分子相比,GDB-17分子在非芳族杂环,季中心和立体异构体中含量更高,在形状空间的第三维中密集分布,并代表了更多的支架类型

5、QM7/QM7b

QM7/QM7b数据集是GDB-13数据库的子集:使用二元密度泛函理论(PBE0 / tier2基集)确定每个分子的最稳定构象和电子特性(原子化能,HOMO / LUMO特征值等)的3D直角坐标。在稳定的构象坐标下,以QM7 / QM7b为基准的学习方法负责预测这些电子特性。

QM7b该数据集是用于多任务学习的QM7数据集的扩展,其中必须在不同的理论水平(ZINDO,SCS,PBE0,GW)下预测13个其他属性(例如极化率,HOMO和LUMO特征值,激发能)。 还包括其他含氯原子的分子,总计7211个分子。

6、QM8

QM8数据集来自最近对电子光谱的量子力学计算和小分子激发态能量建模的研究,是GDB-17的子集。在2.2万个样本上,用三种不同的方法计算了四种激发态性质。

7、QM9

QM9是一个全面的数据集,为GDB-17数据库的一个子集提供几何、能量、电子和热动力学特性。该数据库包含431.4万个稳定有机分子每个分子最多含有9个重原子。所有分子均使用密度泛函理论(基于B3LYP / 6-31G(2df,p)的DFT)建模。 在我们的基准测试中,将几何属性(原子坐标)集成到特征中,然后将其应用于预测其他属性。

上述介绍的数据集(QM7, QM7b, QM8, QM9)是作为量子机器工作的一部分进行策划的,该工作已经处理了大量数据集,以衡量机器学习方法在量子化学方面的有效性

ESOL

ESOL是一个由1128种化合物的水溶性数据组成的小型数据集,该数据集已用于训练直接从化学结构(如SMILES字符串中编码)估算溶解度的模型。请注意,这些结构不包含3D坐标,因为溶解度 是分子的属性,而不是特定构象的属性

FreeSolv

自由溶剂化数据库(FreeSolv)提供了实验和计算的小分子在水中的水化自由能。计算值是由分子动力学模拟的化学自由能计算得出的。我们将实验值包含在基准测试集合中,并使用计算值进行比较。

Lipophilicity

亲脂性是影响膜通透性和溶解性的药物分子的重要特征。 该数据集来自ChEMBL数据库,提供了4200种化合物的辛醇/水分配系数(pH 7.4时的logD)的实验结果。

PCBA

PubChem BioAssay (PCBA)是一个由高通量筛选产生的小分子生物活性数据库。使用PCBA的一个子集,包含128种生物测定法,测量了超过40万种化合物,用于基准的机器学习方法

MUV

MUV数据集包含约9万个化合物的17个具有挑战性的任务,是专门为验证虚拟筛选技术而设计的。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值