补充一点化学知识/术语

Pengsen Ma

已于 2023-09-20 08:37:31 修改

阅读量1.8k

点赞数 1

分类专栏： DrugAI 文章标签： java 前端 javascript

于 2023-02-09 16:06:44 首次发布

本文链接：https://blog.csdn.net/weixin_43135178/article/details/128954807

版权

DrugAI 专栏收录该内容

49 篇文章

订阅专栏

1、一些键位的问题：

问题1：1处、COOH等于这种“O + OH”的组合吗？

可以，"COOH" = "O+OH" ,因为一个C连接4个键，每个键的末端是一个C，并且每一个连接点没写出来的都是一个C

问题2：2处和3处、CH3可以省略不写吗

可以，末端的CH3都可以省略不写，2和3不一样的地方是2是手性，但也是CH3，只不过是带有方向的CH3而已

问题3：这两个分子是一样的吗？

基于上面的知识，是完全一样的

2、motif（子图）相关

1）motif（子图）是什么？

维基百科：经常出现的统计学上非常重要的子图或子结构，也可能是一种模式。

下面我们给出例子，分子图通过一些分解手段来构造一些子结构，我们列出了4个例子：

第一个子结构包含了绝大多数分子图中的点，也就是说本身这个子结构包含了很多非常有用的信息。但是由于这个结构非常特殊，我们很难在其他图中找到相同的子结构，所以我们就不把它当作motif。
第二个和第三个例子可以被当作motif，首先是因为他们都经常出现在各种分子图中。另一方面根据化学中的domain knowledge，我们可以知道这两个子结构具有特殊的性质。所以我们认为这两种子结构都可以被当作motif。
最后一个例子是一个碳氢结构，该结构也经常出现在图中。但是目前还很难知道它有什么特殊的性质，所以不把它作为motif。

2）Why motifs？

第一个原因就是motif已经在图领域被广泛学习，而且已被证明可以对一些图表示学习起到帮助。第二个原因是motif作为统计学上较重要的子图，学习motif本身也就如同在学习图中的一个重要子结构。自然我们也可以学习到一些有用的信息来帮助分子图的表示学习。

对比NLP和图领域，这两者有非常多的相似之处。我们在图中以node作为基本的单位，在NLP中把字母作为基本的单位；图中的edge这种两个node之间的关系可以看做NLP中两个相邻字母之间的关系；图中的子图在NLP中也可以用连续的字母作为相对应的关系。图中的motif在NLP中也可以被看作word,在NLP中word embedding的学习是非常重要的，无论是对于sentence还是document。类比过来，图中motif的学习对于graph的学习也是非常重要的。

3）Motif Vocabulary

构建motif的字典，我们首先给一个数据集选取一个提取motif的方法，然后遍历数据集中所有的分子图提取出一些子图。

我们也可以进行筛选，选出一些重要的子图。当然也可以不做筛选，全部放在字典之中。这样肯定也不会遗漏信息。

需要强调的是，提取motif方法的选择也很重要。我们可以用环来代表非常多的motif，本研究中的提取方法就是选取所有的环结构已经那些不在环结构上的边作为motif放入字典之中。其他一些分子中的成熟的decomposition方法例如RECAP和BRICS提取出来的motif相对较大，很难控制字典的大小，因为当motif过大的时候就不够基础，提取出的motif中数量就很难控制。只提取环和边的另一个好处是其时间复杂度不是很高，只有o(n2)。

干货！通过异构子图神经网络进行分子表示学习_AITIME论道的博客-CSDN博客

Motifs

Learning to Extend Molecular Scaffolds with Structural Motifs

Training our model relies on a set of fragments M – called the motif vocabulary – which we infer directly from data. For each training molecule, we decompose it into fragments by breaking some of the bonds; we only consider acyclic bonds（bonds that do not lie on a cycle，as breaking rings is chemically challenging）.仅切断没在环上的键

We break all acyclic bonds adjacent to a cycle (i.e. at least one endpoint lies on a cycle), as that separates the molecule into cyclic substructures, such as ring systems, and acyclic substructures, such as functional groups. We then aggregate the resulting fragments over the entire training set, and define M as the n most common motifs, where n is a hyperparameter.【切断了临近环的所有键，所以这将分子分离成环状子结构和非环状子结构，然后，我们将整个训练集的结果fragments 聚合在一起，将n个最常见的motifs定义为M，其中n是超参数】

Having selected M, we pre-process molecules (both for training and during inference) by noting which atoms are covered by motifs belonging to the vocabulary. This is done by applying the same bond-breaking procedure as used for motif vocabulary extraction. During generation, our model can either add an entire motif in one step, or generate atoms and bonds one-by-one. This means that it can generate arbitrary structures, such as an unusual ring, even if they do not appear in the training data.

Finally, note that in contrast to Jin et al. (2020), we do not decompose ring systems into individual rings. This means that our motifs are atom-disjoint, and we consequently do not need to model a motif-specific attachment point vocabulary, as attaching a motif to a partial graph requires adding only a single bond, and thus there is only one attachment point. 【我们不会将环系统分解为单个环】

3、GWAS（基因组关联分析）位点90%以上分布在非编码区域，非编码区域和位点是什么意思？

GWAS是基因组关联分析的缩写，它用于研究基因与表型之间的关系。GWAS位点是指在基因组上与某种表型相关的特定位置。这些位点通常被认为是可能与表型相关的基因变异的标记。

简单来说，GWAS就是研究基因与某种表型的关系，其中位点是指基因组上SNP的特定位置。

非编码区域指的是基因组中不编码蛋白质的DNA序列区域。这些区域包括基因的调控区域、转录因子结合位点、启动子、增强子、微小RNA和长链非编码RNA等。尽管这些区域不直接编码蛋白质，但它们仍然对基因表达和调控起着重要作用。

因此，当说90%以上的GWAS位点分布在非编码区域时，意味着这些位点通常并不直接编码蛋白质，而是可能通过影响基因表达和调控等方式来影响表型。

4、分子晶体结构预测是什么？

1）晶体是什么？它和小分子有什么关系？

这里的晶体一般指的是由分子或原子组成的晶体。分子晶体是由分子通过各种非共价键如氢键、范德华力等相互作用形成的固态物质，属于小分子。

在分子晶体结构预测中，通常是基于分子结构计算出其在晶格中的几何排列，从而得到晶体结构和特征数据的。所以，分子结构和晶体结构是密切相关的。

2）分子晶体结构排名和

"分子晶体结构排名"是指根据一定的评价标准，对不同可能的分子晶体结构进行排序，以找到最优化的晶体结构。这个过程可以利用计算方法进行模拟和计算实现。

3）晶体特征预测？

"晶体特征预测"是指通过计算机模拟和数据处理等技术手段，对分子晶体的物理化学特征进行推断和预测。例如，晶格常数、衍射角度、晶胞体积、分子间距离等都可以通过计算和模拟得出。这些晶体特征数据可以为材料设计、药物研发等领域提供指导和预测。

4）分子晶体结构预测

分子晶体结构预测是指利用计算方法对分子在晶格中的几何排列进行模拟和预测，以推断出该分子在晶体中的结构、形态等信息。该技术可以帮助科学家们更好地理解不同分子之间的相互作用机制，并为材料设计、药物筛选等领域提供基础数据和指导。

5、蛋白质、靶点、磷酸化位点，它们三者之间的关系？

蛋白质是生命体内最为重要的一类生物大分子，具有多种功能。其中，一些蛋白质分子中含有一些特定的氨基酸残基，可以被磷酸化修饰，形成磷酸化位点。这些位点对于蛋白质分子的结构和功能调节具有重要作用。
靶点是指药物分子所作用的特定生物分子，包括蛋白质、核酸等。在药物研究中，很多药物分子的作用机制就是与靶点上的磷酸化位点相互作用，从而影响其生物学功能。寻找合适的靶点是非常重要的一步，因为药物通常通过与其靶点相互作用，发挥其治疗效应。【一个靶点可以存在多个磷酸化位点、多个磷酸化位点不等于多个靶点，两个不同的靶点通常对应着两个不同的蛋白质】
磷酸化位点是一种生物标记，指示某个蛋白质可能与某种生物活性分子（例如药物分子）发生相互作用，并且成为该分子的可能靶点之一。因此，在药物研发中，研究人员通常会通过对磷酸化位点的系统和全面地研究，来鉴定和确定它们的靶点潜力，以便研发出具有更高效、更低副作用的药物分子。【磷酸化位点一般指蛋白质分子中的一些特定氨基酸残基，比如丝氨酸、苏氨酸和酪氨酸等，它们可以被磷酸化修饰。这种修饰对于蛋白质分子的结构和功能调节具有重要作用，是蛋白质信号传递和调控等生物过程中的重要机制之一。】

总之，蛋白质是生命体内最为重要的一类生物大分子，其中一些蛋白质含有磷酸化位点。这些磷酸化位点可能成为生物活性分子（如药物分子）的可能靶点之一，这也是药物研发中一个重要的研究方向。

蛋白质可以作为药物分子的靶点，除了结合磷酸化位点这种方式，还有其他什么方式？

蛋白质是一类可能作为药物分子的靶点，但并不是所有的药物分子都是通过与蛋白质上的磷酸化位点相互作用来发挥治疗效应的。

在药物研究和开发中，磷酸化位点是一种生物标记，可能成为某种生物活性分子（如药物分子）的靶点之一。但是，药物分子发挥治疗效应的方式和途径非常多样，包括但不限于与特定蛋白质上的磷酸化位点相互作用。

1. 直接结合到蛋白质的活性部位：药物分子可以通过与蛋白质上的非磷酸化位点相互作用，结合到蛋白质的活性部位，从而发挥治疗作用。
2. 结合到蛋白质的结构域：除了结合蛋白质的活性部位以外，药物分子还可以通过与蛋白质上的结构域相互作用，发挥治疗作用。
3. 结合到蛋白质与其他分子的复合物：某些蛋白质需要与其他分子形成复合物才能发挥其生物学功能，药物分子可以通过结合到蛋白质与其他分子的复合物的接口部位，来影响蛋白质复合物的形成和功能。
4. 影响蛋白质的表达和稳定性：药物分子也可以通过影响蛋白质的表达、稳定性或降解速率等方式，来调节蛋白质的生物学功能。

总之，药物分子与蛋白质相互作用的方式多种多样，具体的作用机制需要根据具体的药物分子和蛋白质来具体分析。在药物研究中，选择适合的靶点以及优化药物分子的靶向性、亲和力和选择性等是非常重要的研发方向。

双磷酸化位点和单磷酸化位点的关系是什么？

单磷酸化和双磷酸化位点是指不同数量的磷酸基团在氨基酸残基上的修饰情况。单磷酸化位点通常是指某个氨基酸残基上只有一个磷酸基团的修饰，而双磷酸化位点则是指同一氨基酸残基上存在两个相邻的磷酸基团。双磷酸化位点相对于单磷酸化位点来说，在信号传递和调控等生物学过程中的作用更加显著。

双磷酸化位点与单磷酸化位点的关系并不是一种包含关系。也就是说，单磷酸化位点并不一定是双磷酸化位点的子集。在蛋白质分子的结构和功能中，不同的磷酸化位点都可能具有独特的生物学意义和作用。

一个靶点可以有两个双磷酸化位点吗？

一个靶点通常可以存在多个磷酸化位点，其中也可能存在多个双磷酸化位点。双磷酸化位点是指靶点上同时存在两个磷酸化位点的情况，而且这两个磷酸化位点之间的距离通常比较接近。

在药物研究中，很多药物分子的作用机制就是与靶点上的磷酸化位点相互作用，从而影响其生物学功能。

需要指出的是，虽然一个靶点上存在多个磷酸化位点，但这些磷酸化位点之间的配体识别能力和亲和力可能存在差异，因此药物分子可能会选择特定的磷酸化位点来发挥治疗效应。具体选取哪个磷酸化位点作为药物分子的靶点还需根据具体的药物分子结构以及靶点本身的特点进行判断和选择。

6、抗原和抗体

抗原可以是病毒、细菌等异物以及人体自身死亡的细胞，是能够刺激机体产生免疫应答的物质。

而抗体是B淋巴细胞或记忆细胞增殖分化而成的，一般产生于抗原的刺激之下。抗体是一种大分子，属于免疫球蛋白家族，它们的分子量通常在150 kDa以上，具有高度特异性的结合能力，可以与抗原结合并进行免疫反应。

可以说抗原是人体免疫系统的入侵者。抗体是机体的防卫者，抗原被机体识别后机体会产生对抗抗原的物质也就是抗体

7、基因

基因和氨基酸是两种不同的生物分子。

基因不是氨基酸，基因是一段用来编码生物体遗传信息的DNA序列，它可以通过转录和翻译过程，转化为具有特定功能的蛋白质。
氨基酸则是蛋白质的构成单元，它们通过肽键连接成链，并折叠成特定的三维结构，从而实现蛋白质的生物学功能。

在转录和翻译过程中，基因序列会被转录成RNA分子，并最终翻译为一串串氨基酸序列，组成具有特定生物学功能的蛋白质。

8、分子活性预测

分子活性预测是一种基于化学信息计算的方法，用于预测分子与生物靶点相互作用的强度和性质。在分子活性预测中，通常会使用一些指标来评估和描述化合物对靶点的亲和力和活性。

常见的分子活性预测指标包括：

IC50：半数抑制浓度，表示药物抑制生物反应或细胞增殖的能力。IC50值越小，说明药物对应靶点的亲和性越高，抑制效果越明显。
Ki：离解常数，衡量分子对目标蛋白的亲和力。Ki值越小，说明药物对蛋白的亲和力越大。
EC50：半数最大有效浓度，表示药物在某种生物体系中产生最大生理活性所需的浓度。EC50值越小，说明药物的生理活性越强。
LogP：脂水分配系数，衡量分子在油水界面上溶解度的大小，也常用于评估分子的亲脂性和渗透性。LogP值越大，说明分子越容易穿过细胞膜进入细胞内。
药效团：包括键长、键角、原子分布、电荷分布等特征属性，衡量分子对靶点的特异性结构和亲和性。

需要注意的是，这些指标并不是绝对的，使用不同的计算方法和模型也会得到不同的结果。此外，针对不同类型的靶点和生物分子，应选择相应的指标进行预测和评估。

IC50值多少有活性？

1纳摩尔（nM）等于0.001微摩尔（μM），也就是1微摩尔等于1000纳摩尔。

IC50大于10μM，无拮抗活性，也就是说超过10000nM的分子没有活性

9、化学结构、成像（Cell Painting）和基因表达谱（L1000）是什么？

化学结构是描述和记录化合物分子内部原子之间连接的方式、位置、数量等信息的方法，通常采用化学式、线条式或分子式进行表示。

成像（Cell Painting）是一种高通量细胞成像技术，通过多通道荧光显微镜对细胞进行成像，得到细胞拍照后的荧光图像。

基因表达谱（L1000）是一种测量细胞内基因转录水平的高通量检测技术，通过microarray或RNA sequencing等方法，获取几千个基因的表达水平信息。

这三种东西与小分子有什么关系？

这三个方法与小分子有一定的关系。在化学研究中，可以使用成像技术检测小分子在细胞内的分布和动态变化；基因表达谱则可以帮助我们了解小分子与细胞之间的相互作用和影响，如小分子通过调节基因表达水平来影响蛋白质合成等生物过程。因此，这三种方法对于小分子的发现、设计、筛选和应用都具有重要意义。

这三种东西可以结合起来预测生物活性：

Nat. Commun. | 从表型特征和化学结构预测化合物活性

10、The lead molecule（引物分子）和 “先导化合物”的关系？

“Lead molecule”和“先导化合物”是两个类似但不完全相同的概念。它们都指作为候选药物分子的初始化合物，但在药物研究和开发的不同阶段使用的术语略有不同。

"先导化合物"（也称为"先导物"）通常是指在发现新药物前期，通过高通量的筛选方法获得的具有一定生物活性的分子。这些分子需要经过进一步的优化和验证，包括代谢、药效学、药物动力学等多方面的研究，以确定它们是否具有成为潜在药物的特征。

"Lead molecule"是药物研究中稍后的阶段使用的术语，也被称为"引物分子"，通常，这个化合物具有一定的生物活性，并且可以根据需要进行化学修饰和优化，以提高其药理特性和药效【和先导化合物效果类似，但是他们的研发阶段不同】。一旦经过反复的有效性测试和结构优化后，先导化合物可能会被升级为引物分子，作为药物开发的起点。Lead分子通常具有更高的亲和力和选择性，并且能够引导进一步的优化工作以获得最终的药物分子。

总之，先导化合物和Lead分子都是药物研究中至关重要的概念，它们帮助药物研究人员在药物发现和开发过程中寻找最优化的候选化合物。

11、蓝本

在生物学中，“蓝本”通常指的是一种基因或遗传物质的“模板”或“设计图纸”，它具有指导细胞复制和产生后代的作用。

在基因突变的研究中，可以使用某个蓝本作为基础，然后通过随机突变来改变其DNA序列，以观察对某些生物形态、功能等方面的影响。

12、母核和scaffold的区别

母核（core）通常是指一些经典的、具有良好的化学性质和结构特征的小分子结构单元，具有较高的药物活性和生物活性，常用于药物发现和设计中。母核通常可以用一个简单的化学式或 SMILES 表示。在进行化合物设计时，以母核为基础进行结构修饰可以节省发现新药物的时间和成本。

而 scaffold 一般是指化合物的主体骨架，超出该骨架的部分被认为是可替换的“侧链”区域。在进行大规模化合物筛选时，研究人员通常会将一批化合物的结构转化为它们的 scaffold，然后以 scaffold 作为模板进行进一步筛选和优化。

虽然母核和 scaffold 都是指化合物的核心结构，但是它们在具体使用上还是有一些区别的，其中一些主要差异包括：

母核的作用更多是用于进行结构修饰，是设计药物时的基础；而 scaffold 更多用于快速筛选和优化大量已有化合物的结构。
母核通常是一个精细设计的结构单元，具有较高的生物活性和药物活性，常用于首次设计新药物；而 scaffold 更多依赖于已有结构或数据进行筛选和优化，能够快速生成大量可能的结构。
母核的范围相对较小，常常是一些特定的小分子结构单元；而 scaffold 的范围更广，可以是一个分子中除去“可替换”部分后剩余的骨架。

母核通常是人为定义的，scaffold是通过计算机程序确定的【但是需要注意的是，学计算机的才认为scaffold是通过rdkit计算机程序得到的，而生物学的那些人他们不懂rdkit，所以scaffold是他们自己定的】。可能计算机对两个化合物得到scaffold，它们的scaffold是不一样的，但是都具有相同的我们定义的母核。

例如两个分子的scaffold分别是下面这样，但是他们的core可能是一样的，此时我们定义第一个scaffold为母核：

13、预测蛋白质结合界面是什么？有什么用？

Nature Communications | PeSTo: 准确预测蛋白质结合界面的无参数几何深度学习

蛋白质结合界面是指在蛋白质复合物中，蛋白质与其配体之间的相互作用界面。预测蛋白质结合界面即是根据蛋白质序列、结构以及与其配体之间的相互作用信息，预测出可能发生结合的位置和方式。

预测蛋白质结合界面对于研究蛋白质相互作用机制和作用方式具有重要意义。它可以帮助解释复合物的结构和功能，例如蛋白质-蛋白质、蛋白质-小分子等复合物的形成过程及其稳定性；同时也有助于预测和设计新型蛋白质分子或者小分子抑制剂，为药物研发提供有价值的参考信息。此外，预测蛋白质结合界面还对于了解蛋白质结构和功能等方面有一定的指导意义。

总之，预测蛋白质结合界面与蛋白质的相互作用密切相关，并在生物学、医学等领域中具有广泛的应用前景。

14、假阳性

假阳性指的是在药物筛选或诊断测试中出现的一种结果，即测试显示为阳性（即存在药效或疾病）但实际上不存在。简单地说，它是一种错误的结果，因为它会导致将其视为阳性而进行额外的研究或治疗，浪费时间和资源。在药物发现方面，假阳性可能会导致对不相关的化合物进行进一步的优化或评估，从而影响研发效率和成本。

15、亲和力和结合能

1、亲和力（affinity）通常用于描述分子（例如配体）与另一个分子（例如受体）之间结合的强度或亲和性。它表示两个分子之间相互吸引的程度，越高的亲和力意味着两个分子结合更紧密或更具吸引力。

Kd：解离常数（dissociation constant），反映的是化合物对靶标的亲和力大小，值越小亲和力越强。

2、结合能（binding energy）是指在分子结合过程中释放或吸收的能量。它是分子结合的热力学量度，可以通过实验测量或计算模拟来获得。结合能的大小与分子间相互作用的稳定性和强度有关，较大的结合能表示分子结合更稳定或具有更强的相互作用。

3、结合能到底和亲和力有什么关系呢？

亲和力和结合能之间存在一定的关系，通常较高的亲和力对应着较低的结合能。这是因为结合能是在分子之间形成相互作用时释放的能量，因此较强的结合会导致较大的结合能。

但需要注意的是，亲和力和结合能并不完全相等。亲和力是一个描述性质，用于定性或相对地描述分子之间的结合强度。而结合能是一个定量的物理量，用于测量或计算分子间结合的能量变化。

4、通过结合能可以计算亲和力

结合能计算亲和力 - 在线工具 - 纽普生物 - NovoPro

生物中似乎大家更看结合能怎么样，而不看亲和力（通过docking得到的分数），但是它们也是有一定的关系的（通常较高的亲和力对应着较低的结合能）

16、GuacaMol是什么？

GuacaMol是一个开源的Python包，用于对从头开始的分子设计模型进行基准测试。

其他的benchmark：

（分子优化BenchMark）Sample Efficiency Matters: A Benchmark for Practical Molecular Optimization（PMO）_zinc250k数据集_HealthScience的博客-CSDN博客

17、TPSA、clogp是药化学家比较关注的东西

药化学家一般就是通过收集已知专利、论文中对于某个靶点有用的分子（IC50比较低的分子），然后寻找它们之间的共性，比如他们都有带有苯环等等，然后对于它们已经发表的分子进行范围较大的替换，就是说对一个分子的很多可结合点做替换和连接等等，大致确定哪些可以改、不可以改。【改的方式分为两种：1、确定一个很大的主体scaffold，对它添加原子、基团.... 2、确定多个scaffold，然后在这些scaffold之间添加原子、基团.】

然后根据所需的性质添加基团，例如需要亲水性，那么就多添加N、O（也就是logp比较低），然后对这些添加了基团的分子计算TPSA、clogp（logp是需要实验做出来的，clogp就是通过计算的方式得到的分值），初步确定它的极性表面积（是否好进入分子，好旋转）。他们比较关注这两个指标，其他的不太关注。最后根据性质较好的分子去做活性实验确定IC50值。

18、骨架跃迁

骨架跃迁（Scaffold Hopping）也称先导物跃迁，是发现结构新颖化合物的一个策略。骨架跃迁方法通常以已知的活性化合物为起点，通过改变分子的核心结构（core）获得新颖的化学结构而结束。是要替换core 结构的。

骨架跃迁方法分类

根据骨架跃迁的定义，从母体化合物获得的衍生物具有新颖的核心结构。问题是衍生分子必须与其母体化合物有多大的不同，以便将改进定义为骨架跃迁。换句话说，如何判断获得衍生物相对于母体化合物的新颖性。如果使用不同的合成路线合成了两种骨架，不管变化有多小，也称为骨架跃迁。许多案例中，化学结构密切相关（很相似），但可以申请不同的专利和递交不同的新药申请可被FDA批准都证实了上面的说法。例如，两种磷酸二酯酶5型（PDE5）抑制剂西地那非和伐地那非之间的主要结构差异是5-6稠环中碳原子和氮原子的互换，但差异足以使两个分子被不同的专利覆盖。

本文将骨架跃迁分为4类：杂环替换、开环或闭环、肽模拟和基于拓扑的跃迁。

1）杂环替换

替换某些原子未其他原子，一般是在中心或者边缘进行的。替换边缘的原子，从而添加新的比较大的基团是另外一种骨架跃迁的方式。

用作药物分子核心的杂环功能团通常提供向不同方向突出的多个载体。在保持载体方向不变的同时，替换杂环中的C，N，O和S原子可产生新的骨架。如果杂环直接参与与靶蛋白的相互作用，则可能实现改善结合亲和力。

例：COX-1和COX-2抑制剂

非甾体抗炎药抑制由花生四烯酸引起的前列腺素生物合成的环加氧酶（COX）起作用。人体中有两种催化PGs第一步生物合成的酶，即COX-1和COX-2。虽然催化相同的反应，但COX-1和COX-2的组织分布和生理功能是不同的。虽然COX-1和COX-2只有60％的序列同源性，但蛋白质主链，特别是配体结合位点，彼此非常相似。另一方面，配体结合位点的微妙结构差异足以产生选择性抑制剂。

2）开环或闭环

大多数药物样分子含有至少一个环系统，因此开环和闭环是产生新型骨架的两种直接策略。由于分子灵活性不仅对结合自由能熵的组成有很大贡献，而且对膜的渗透和吸收也有很大贡献，开环和闭合是提高药物分子性质的有用策略。开环和闭环通过控制可自由转动键的总数来操纵分子的灵活性。

例：闭环

分子内氢键（HB）通常提供关闭环的直接提示。通过O-烷氧基和联芳基NH之间的潜在的分子内HB， GSK研究小组合成了一系列吲哚化合物作为前列腺素EP1受体拮抗剂。闭环设计成功地将分子锁定成生物活性构象。

例：开环

虽然闭环对结合自由能有积极的影响，但是对溶解度和其他ADME（药物排泄吸收）性质也产生了潜在的负面影响。为了克服分子中太多环的不利影响，药物化学家可以实践开环，以增强分子的类药性（分子类药性和开环有关系吗？）。

吡啶并嘧啶酮是蛋白激酶抑制剂的典型部分。6-芳基取代的吡啶并嘧啶酮是一种广谱的酪氨酸激酶抑制剂。为了设计新型酪氨酸激酶抑制剂，Furet等研究人员打开嘧啶环，并将嘧啶环1位的氮原子移到位置5，通过分子内氢键与相邻的尿素形成伪六元环。测试结果进一步支持了伪环设计概念，嘧啶基脲化合物显示了对几种酪氨酸激酶的亚微量抑制。

3）肽模拟

生物活性的内源肽，如肽激素、生长因子和神经肽在我们的身体中起着重要的生物学功能。这些肽的不平衡可引起不同的人类疾病，包括糖尿病、癌症、骨质疏松症和子宫内膜异位症等。肽开发为临床上有用的药物受到其代谢稳定性差和生物利用度低的阻碍。使用活性肽构象作为模板设计小分子模拟肽的结构特征，在一些具有挑战性的靶标上获得有希望的结果。该应用已经扩展到涉及蛋白-蛋白相互作用（PPI）的靶点，其中小分子被设计为模拟蛋白质的相互作用部分。基于肽的药物发现的主要目标是减少肽的性质，以增强对蛋白水解的抵抗力，同时保持分子识别的关键化学特征。骨架跃迁是将肽转化为小分子的典型方法。

例：触发细胞凋亡

细胞凋亡或程序性细胞死亡在维持体内平衡和去除损伤或恶性细胞中起主要作用。凋亡途径的不平衡与几个治疗重要的疾病领域有关，包括肿瘤学，心血管疾病和神经变性疾病。Smac通过将其N-末端序列AVPI插入XIAP-caspase-9相互作用袋中与XIAP相互作用，从而释放载脂蛋白-9并引起细胞死亡。Wist等研究人员用恶唑环代替一个肽键，旨在通过降低肽特性来增强药物活性，以与AVPI/Smac竞争以引起细胞凋亡。

4）基于拓扑的跃迁

基于拓扑结构或形状的骨架跃迁的成功案例在文献中很少见。一个可能的原因是已经做了许多尝试，但大多数失败，因此没有发表。另一种可能性是当新的化学型与其模板显著不同时，科学家们可能将该过程视为虚拟筛选，而不是骨架跃迁。可以使用虚拟筛选产生骨架跃迁的类型，即虚拟筛选是进行骨架跃迁的一种技术。最终，骨架跃迁聚焦于发现新的核心结构，通常忽略侧链和靶标之间的潜在冲突，而虚拟筛选以整个分子为苗头化合物。

19、多组学

将我们的身体比喻为一个繁忙的城市，每个细胞都是一个独特的建筑物，承载着各种活动。每个“建筑”或细胞都有许多部门，如设计部门（我们的基因）、制造部门（蛋白质）、通信部门（RNA）等。在生物学术语中，这些部门被称为不同的“组学” ：基因组学、蛋白质组学、转录组学等等。要理解这座城市的运作，即它如何对变化作出反应、生长，甚至崩溃（例如在疾病中），单独查看一个部门是不够的。全面了解需要洞察这些部门是如何相互作用和相互影响的。这种全面的洞察就是多组学的本质。

20、冷冻电镜（cryo-EM）是什么

原文来自于“首先我们将化合物 96 与 2021 年 Changxiu Qu 和 Chunyou Mao 等解析出来的 EP2 受体的冷冻电镜（cryo-EM）结构进行分子对接模拟，挑选最低的能量结合模型进行分析。”

“冷冻电镜”是英文"Cryo-electron microscopy"的简写。这是一种电子显微镜技术，它涉及将样品冷冻在极低的温度下以使样品的生物分子保持原生状态，然后通过电子显微镜对这些样品进行高分辨率的成像。这个技术可以用来研究细胞结构、蛋白质复合体等生物分子的结构。

Cryo-EM技术能够提供蛋白质和其他大分子的三维结构信息，这对于药物开发和分子生物学研究非常重要。

它和“受体晶体”是相似的，例如“之后我们将化合物 96 与 2018 年 Yosuke Toyoda 等析出来的 EP4 受体晶体结构[102]进行对接，我们选择能量最低的结合模型进行后续的分析。”

21、苗头化合物(hit)是什么？

苗头化合物是指对特定靶标或作用环节具有初步活性的化合物。创制新药的物质准备,始自于发现苗头化合物(hit),苗头是指对特定靶标或作用环节具有初步活性的化合物。发现苗头物可有多种途径,其中主要是用随机筛选的方法(天然产物和高通量筛选化合物库)和理性的方法(基于受体或配体结构和机制的分子设计)。

22、pockets 、 complexes 、 poses 、 ligands

complexes 和poses 是什么？这4种东西之间的关系是什么？

在计算药物发现和分子对接研究中，通常涉及到以下四种主要概念：pockets（口袋）、complexes（复合物）、poses（姿势）和ligands（配体）。

Pockets（口袋）：口袋指的是蛋白质分子表面的一些凹陷或深处，通常与小分子（配体）的结合相关。这些口袋通常由氨基酸残基的三维排列构成，能够与分子相互作用，形成复合物。
Complexes（复合物）：复合物是指由蛋白质和配体（小分子）组成的结合实体。在分子对接研究中，科学家尝试模拟蛋白质与配体之间的相互作用，以理解它们是如何结合的，以及结合的强度和方式。复合物通常是分子对接研究的主要焦点。
Poses（姿势）：姿势指的是配体在蛋白质口袋内的不同构象或排列方式。在分子对接研究中，通常会生成多个姿势，表示不同的可能性，以确定哪个姿势最可能与蛋白质结合。
Ligands（配体）：配体是指小分子化合物，通常是药物候选化合物，它们与蛋白质相互作用，可能会影响生物活性。在分子对接研究中，科学家通常研究不同的配体，看看它们如何与目标蛋白质结合，并确定哪些具有最佳的结合性能。

综合起来，pockets 是蛋白质表面的深处结构，complexes 是蛋白质和配体组成的结合实体，poses 是配体在口袋内的不同构象或排列方式，ligands 是与蛋白质相互作用的小分子化合物。

23、ADMET

ADME是药代动力学和药理学中「吸收（Absorption）、分布（Distribution）、代谢（Metabolism）和排泄（Excretion）」的英文首字母缩写，描述了药物化合物在生物体内的处置（disposition）的动态变化。这四个因素均影响着药物水平和药物组织暴露动力学，从而影响化合物作为药物的药效和药理活性。

若需兼顾药物释放（Liberation）和/或药物毒性（Toxicity），则会合称为LADME、ADMET或LADMET。