三种碎片化方法:RECAP, BRICS与eMolFrag

最新推荐文章于 2023-09-21 19:25:16 发布

Yinger_2000

最新推荐文章于 2023-09-21 19:25:16 发布

阅读量5k

点赞数 22

本文链接：https://blog.csdn.net/Yinger_2000/article/details/110207378

版权

如果有低级的化学错误请戳戳>v<

一、RECAP

Recap可以模仿实验室中的正向合成过程来进行逆向操作，对分子进行一系列的转换与分解，最终得到一组合理的分子片段。

1.1 简介

组合化学：若用一个构建块的n个单元和另一个构建块的n个单元同时反应，就能产生n*n个化合物，效率非常高。
组合化学的重点：找到高质量的构建块。
解决方法：运用RECAP, 基于化学知识将分子划分成构建块，并存入库中。之后就可以直接从这个库中取构建块使用。

1.2 一些不太相关的话

在这篇论文中motif和fragment是类似的意思。building blocks是要构建的库中的元素，它包含motif/fragment。

1.3 Introduction

RECAP的主要做法是：通过分割活性分子来获得活性构建块。我们知道有一些常见化学反应会形成的键，所以在分割分子的时候，我们就分割这些键。
RECAP的特点：在11个预定义的键上分割。这11个预定义的键保证了分出来的碎片是适合组合的，是适用于组合化学的。

1.4 Method

1.4.1 Concept of RECAP

在这里插入图片描述
STEP1：收集一系列对特定目标有活性的结构。
STEP2：使用RECAP进行碎片化——只保留最终碎片而不保留中间过程。
STEP3：对碎片进行分析。包括该碎片在原始活性结构中出现频率的分析和集群分析（将类似的片段组合到一个群中）
STEP4：碎片分析好后合并成为构建块，计入库中。
STEP4的原文描述

1.4.2 Cleavage Rules

所谓的断裂规则指的就是：

预定义了11种bond，遇见这种bond就切一刀。
如果裂解完的碎片只包含小的官能团(氢、甲基、乙基、丙基和丁基)，则这个碎片不裂解。目的：1.避免产生无用小片段。2.处于类药性考虑。
保留环结构（这一点可以并入第一点吗？或者说这11种bond的预定义确保了这一点吗？）

这些键选择了常见的化学反应会产生的键，之所以要这么选择，是为了使这些碎片易于合成。（没道理啊？应该是说基于这些碎片易于合成更大单位的构建块还差不多）
↑上面这句的原文描述
另外，用户也可以自定义可切割的键。

1.4.3 A Cleavage Example

在这里插入图片描述
上图中一个分子有3条可断的键，形成4个碎片。碎片上有标记。文献中这个标记命名为“同位素标记”（Isotopic labels），但实际上它就是指：这条可断的键在11种可断键中的序号。
作者认为，这个标记表示了裂解点（/碎片）所处的原子环境(/化学环境）。
这个标记表示了【裂解点所处的原子环境】的原文描述
做标记记录下化学环境的意义：

用于综合规划。在合成的时候可以依据这类信息选取部分碎片。
可以得到一个碎片有几个裂解点，这个信息也是很重要的。据此可以将碎片划分成terminal monomer（一个裂解点）和 core template（多个裂解点）。上图中(2)(5)属于terminal monomer，(3)(4)属于core template

1.5 代码实现

rdkit封装了RECAP的过程。可以用Chem.Recap.RecapDecompose()将分子碎片化，输入为mol类型，输出为RecapHierarchyNode类型。这个类型可以理解为：分子树。

from rdkit import rdBase, Chem
from rdkit.Chem import AllChem, Draw
from rdkit.Chem import Recap
import pubchempy as pcp

celecoxib = pcp.get_compounds('celecoxib', 'name')
celecoxib = celecoxib[0]
sm = celecoxib.canonical_smiles#转换成smiles
celecoxib = Chem.MolFromSmiles(sm)#转换成mol
decomp = Chem.Recap.RecapDecompose(celecoxib)#碎片化
print(type(decomp))#碎片化后是一个特殊的数据类型

在这里插入图片描述
RecapHierarchyNode类型有children属性和parents属性，得到的都是一个字典。以children为例，得到的字典的键是【一个分子二分后所有可能的碎片】的字符串表示（是SMILES吗？好像不太像），值是其RecapHierarchyNode类型。

RecapHierarchyNode类型还有mol方法和smiles方法，它可以把RecapHierarchyNode类型转换成mol形式和smiles形式。
下面的第一行代码把一个分子树分了一次，得到的first_gen为所有可能的碎片的列表(mol形式）。

first_gen = [node.mol for node in decomp.children.values()]
print(first_gen)
node_type = [node for node in decomp.children.values()]
print(node_type)

在这里插入图片描述
可以看到，first_gen枚举了所有二分后的可能性。

Draw.MolsToGridImage(first_gen, molsPerRow=4, legends=[Chem.MolToSmiles(m) for m in first_gen])

这一行在pycharm中运行显示不出来，但是可以在jupyternotebook中看到。这里应该有3条可断边，所以它断成了2*2=4种。所谓的可断边是确定的，就是11种可能性。
在这里插入图片描述
下面这段代码递归生成一棵分子-碎片树，描述了一个分子是怎样被一步步断开的（的所有可能性）。

def get_leaves(recap_decomp, n=1):
    for child in recap_decomp.children.values():
        print('\t'*n+child.smiles)
        if child.children: ##さらなるフラグメント化のチェック
            get_leaves(child, n=n+1)
 
def get_recap_tree(mol):
    recap = Chem.Recap.RecapDecompose(mol)
    print(Chem.MolToSmiles(mol))
    get_leaves(recap)
 
get_recap_tree(celecoxib)

在这里插入图片描述
除此之外，RecapHierarchyNode类型还有以下一些方法：
hierarch.GetLeaves()：输出一个字典，键是所有叶子节点，即最终产生的最简单的化合物）的字符串表示；值是它们的RecapHierarchyNode类型。

hierarch.GetAllChildren()：输出一个字典，是所有的非根节点，其他与hierarch.GetLeaves()一致。
在这里插入图片描述
hierarch.getUltimateParents()：返回一个只有一个元素的列表，这个就是根节点的RecapHierarchyNode类型。

二、BRICS

天惹这是一篇没有小标题的文献(ಥ_ಥ)

2.1 一些不相关的话

这篇文献对RECAP有一些描述：

In this context, the “fragment space” concept was introduced. In contrast to a fragment library, such a space consists not only of a set of fragments, but also of a set of rules that specifies how to recombine fragments by fusing the respective chemical motifs.

作者认为，RECAP产生了“碎片空间”的概念。这个碎片空间和碎片库（为什么是碎片库？不应该是碎片构成的building blocks即构建块库吗？）的区别是：它还包含了碎片融合的规则，即如何融合motifs以重组片段。（所以motifs和fragment还是不一样的？可能motif是一种种类的概念，而片段指的是具体的某个碎片？）

motif是在许多蛋白质分子中，由几个具有二级结构的肽段在空间上相互接近、相互作用，所形成的折bai叠模样称为超二级结构，又称为模体。

但是看起来和划分没有关系的话那就和我没有关系吧^^

现有的问题是：“类药”的碎片空间是啥样的，碎片类药性是否取决于【该碎片是否来自于药物分子】。因此，有必要衡量当前模型和方法表示化学空间的程度和准确性。

2.2 文献

BRICS做的事：

给出了一套更好的碎片化的rules
给出一套重组模体（motif）的rules，以形成碎片空间。——正如前文所说，碎片空间除了碎片外，还需要重组模体/碎片的规则。
获得了一个高质量、高性能、公开可用的碎片集。

意义：
更好的碎片集、更高性能的碎片空间。

特点：

同时切所有可断的键，以避免产生冗余碎片。这与RECAP是一致的。但是在rdkit中RECAP是一层一层二分的？
↑原文描述

下图描述了一个BRICS划分的过程。它好像和RECAP没啥区别，但是又有区别：

RECAP直接在划分后注上“同位素标签”即可断键的id。但BRICS划分后先注上“同位素标签”，再用link atoms取代这些同位素标签——但这些link atoms看起来正是可断键的id。（在eMolFrag中解释，所谓的link ）
每个键断裂之后会产生两个断裂点，对RECAP来说两个断裂点打的同位素标签对应的可断键id是相同的；而BRICS是不同的。
当然还有一些简单的事情，例如它也会丢弃/不划分很细枝末节的碎片。

下图是16种片段。只列出了断裂点的化学环境，由于R基的多样性，碎片也具有多样性。L1L6&L8L4出现了两次，它们的区分为：是否“appeared as cyclic or acyclic substituents or linkers”。

在这里插入图片描述
我认为这里的16个rules和RECAP的11个rules形式上不同，RECAP列出的是可断键，而BRICS列出的是碎片结构
BRICS同样实现了用户自定义功能。

2.3 代码实现

2.3.1 拆解

参考资料：RDKit|通过Recap和BRICS对分子拆解与合成

与recap不同，该算法是根据键是否能够合成来进行拆解

由BRICS分解后的mol不再是一个用于表示分子树的新类型了，而是一个【一步到位的划分好的无冗余的碎片字符串】组成的列表

from rdkit.Chem import BRICS
m = Chem.MolFromSmiles('c1ccccc1OCCOC(=O)CC')
BRICS.BRICSDecompose(m)

在这里插入图片描述
可以由一组分子生成片段

import os
from rdkit.Chem import RDConfig
cdk_file = os.path.join(RDConfig.RDDocsDir, 'Book\data\cdk2.sdf')
cdk2mols = Chem.SDMolSupplier(cdk_file)
allfrags = set()
for m in cdk2mols:
    pieces = BRICS.BRICSDecompose(m)
    allfrags.update(pieces)
print(len(allfrags))
print(sorted(allfrags)[:3])

在这里插入图片描述

2.3.2 合成

BRICS.BRICSBuild的输入是由mol组成的列表，输出是一个generator类型的生成器。generator类型有next方法，在返回一个mol类型的合成分子的同时，计数器+1。

fragms = [Chem.MolFromSmiles(x) for x in sorted(allfrags)]
ms = BRICS.BRICSBuild(fragms)
print(type(ms))
prods = [next(ms) for x in range(4)]
Chem.Draw.MolsToGridImage(prods, molsPerRow=4, subImgSize=(200, 200))

在这里插入图片描述

三、eMolFrag

这是一个软件，可以把分子分成bricks和linkers两种类型的碎片，它们都属于构建块(building blocks)。

3.1一些不相关的话

文献中对BRICS进行了阐述：

BRICS expands the bond type criteria used by RECAP from 11 to 16 taking into account the chemical environment of each bond type and the surrounding substructures.

BRICS考虑了每种断裂键的化学环境和周围的子结构。言下之意是否是RECAP没有考虑这些？我觉得RECAP应该是属于考虑了化学环境但没有考虑周围子结构。

3.2 Introduction

在基于碎片的药物设计中，如果能够得到【带有碎片的连接信息】的构建块，效果会很好。
但是众多碎片化工具在提取构建块时，并不会储存碎片的连接信息，所以这篇文章提出eMolFrag，在提取构建块的同时储存了碎片的连接信息。

3.3 Methods

eMolFrag将分子划分成碎片集经过两个步骤：
在这里插入图片描述

3.3.1 Part I: Fragmentation

这一步使用BRICS算法将分子划分成碎片。其中含有至少4个非氢原子的碎片被归类为bricks，移除所有bricks后剩下的是linkers.
bricks储存完整的信息。下图为某bricks储存的信息。额外信息包括：

ATOMTYPES:碎片中每个原子的类型
BRANCH @atom-number eligible-atmtype-to-connect：所有的断裂键。每个断裂键是一个二维数组，第一维是碎片中的连着断裂键的原子的id，第二维是不在碎片中的、断裂键应连接的原子的类型。例如图中的6 C.3,指的是该碎片的第六个原子连着断裂键，断裂键的另一侧应该是一个类型为C.3的原子。
fragments similar：被删除的类似片段。

在这里插入图片描述

下图为某linker储存的信息，额外信息只有：

MAX-NUMBER-Of-CONTACTS ATOMTYPES：每个位置所能连接的最大键数和键另一端的原子类型，每个位置表示为一个二维数组。例如这个linker这栏信息的第二行为1 C.3, 标示这个linker的第二个位置最多可以连1个键，键的另一边连接的原子类型应为C.3。

3.3.2 Part II: Mitigation of Fragment Redundancy

如果两种碎片满足xxxx（略），则认为它们是等价的，会被合并到同一类碎片中。这就是为什么BRICKS碎片中会有fragments similar信息。注意：虽然只有BRICKS碎片注释了这个信息，但BRICKS和linkers都从Part II中得到了size的缩减。

Yinger_2000

关注

22
点赞
踩
44

收藏

觉得还不错? 一键收藏
5
评论
三种碎片化方法:RECAP, BRICS与eMolFrag

如果有低级的化学错误请戳戳>v<RECAPRecap可以模仿实验室中的正向合成过程来进行逆向操作，对分子进行一系列的转换与分解，最终得到一组合理的分子片段。简介组合化学：若用一个构建块的n个单元和另一个构建块的n个单元同时反应，就能产生n*n个化合物，效率非常高。组合化学的重点：找到高质量的构建块。解决方法：运用RECAP, 基于化学知识将分子划分成构建块，并存入库中。之后就可以直接从这个库中取构建块使用。一些不太相关的话在这篇论文中motif和fragment是类似的意思
复制链接

扫一扫