ATOM3D:生物分子(包括蛋白质、小分子和核酸)三维结构的统一数据集

ATOM3D是一个关于生物分子(包括蛋白质、小分子和核酸)三维结构的统一数据集。这些数据集被专门设计出来为基于3D分子结构的机器学习方法提供基准,并代表各种重要的结构、功能和设计任务。所有数据集都以标准化格式提供,并附带一个Python包,其中包含用于PyTorch等常见机器学习框架的处理代码、实用程序、模型和数据加载器。ATOM3D被设计为一个实时数据库,随着现场的进展,数据集会在其中更新,任务也会随之增加。

# 安装
pip install atom3d

# Using ATOM3D datasets
# All datasets in ATOM3D are provided in standardized LMDB format.
# LMDB allows for compressed, fast, random access to your structures, all within a single database.

import atom3d.datasets as da
da.download_dataset('lba', TARGET_PATH, split=SPLIT_NAME)

Datasets

ATOM3D目前包含八个数据集,可大致分为四类,涉及单分子结构和生物分子之间的相互作用,以及分子功能和设计/工程任务。

​​​

预测小分子的物理化学性质是药物化学和材料设计中的一项常见任务。SMP基于QM9数据集,该数据集包含134000个稳定的小有机分子的结构和能量、电子和热力学性质,通过量子化学计算获得。

蛋白质在许多情况下相互作用,例如,我们的抗体蛋白质通过与抗原结合来识别疾病。理解这些相互作用的一个关键问题是确定两种给定蛋白质的哪些氨基酸在结合时将相互作用。PIP数据集包含来自Database of Interacting Protein Structures (DIPS,一个从PDB中挖掘的蛋白质复合物的综合数据集)的结构,以及Docking Benchmark 5 (DB5,一个较小的gold标准数据集)。

了解单个氨基酸的结构作用对于设计新蛋白质很重要。我们可以通过基于周围结构环境预测给定蛋白质位点上不同氨基酸的可替代性来理解这一作用。RES数据集由从PDB中的非冗余结构中提取的原子环境组成。

​​​​​

识别稳定蛋白质相互作用的突变是设计新蛋白质的关键任务。MSP包含来自SKEMPI蛋白质相互作用数据集的结构,每个突变都通过计算模拟到结构中。

大多数治疗药物和许多对生物信号传导至关重要的分子都采用小分子的形式。预测蛋白质小分子相互作用的强度是药物发现应用的一项具有挑战性但至关重要的任务。LBA包含来自PDBBind的“Refined set”的结构,这是一个精细化的数据库,包含来自PDB的蛋白质配体复合物及其相应的结合强度。

许多蛋白质通过改变形状来开启或关闭其功能。因此,预测药物将倾向于哪种形状是药物设计中的一项重要任务。LEP包含一组来自多个具有“活性”和“非活性”状态结构的蛋白质,其中527个小分子具有已知的激活或失活功能,使用Glide程序进行建模。

评估特定3D蛋白质构象的质量是计算蛋白质结构预测的关键方面。PSR包含来自结构预测关键评估(CASP)的数据,这是一个预测蛋白质结构的blind international competition。

与蛋白质类似,RNA扮演主要的功能角色(例如基因调控),可以采用明确的3D形状。然而,问题是数据贫乏,只有几百个已知结构。PSR包含前21个发布的RNA拼图挑战的候选结构,这是RNA的blind structure prediction competition。

参考来源:Welcome to ATOM3D documentation! — ATOM3D documentation

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值