默克AI逆合成软件的一点细节(五)

文章介绍了Chematica方法在处理复杂有机反应中的逆合成策略,包括筛选符合化学规则的逆合成子、去除不稳定结构和检测非选择性反应,以提高合成路线的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        我们知道现实的有机反应是非常复杂的,即使尽我们所能最细致的编写分子背景和反应规则也不能确定模板在任何情况下的适用性。所以除了尽可能充分详细的编写模板外还需要另外编写一些策略帮助模型选出尽可能正确的模板,或者说减少一些错误的和具有迷惑性的逆合成子。这些逆合成子对于化学家来说很容易就能判断是否能生成产物,但对于机器来说可能是比较难判断的。

1. 选出符合反应规则的逆合成子

        如何让模型知道一个合成子是否符合化学反应规则是一个大的挑战。以芳香族的亲电取代为例,虽然原理非常简单,然而即使是最简单的苯也会因为不同的吸电子基或给电子基需要考虑邻位、间位、对位。如果都使用单独的编码,排列组合下来将是一个巨大的数量。一个可行的解决方法是与物理测量结合根据电子密度等物理量来决定取代的位置。但这个方法也有一个缺点就是计算量会非常大、计算需要的时间很长,因为逆合成搜索过程中需要评估数百万中可能。因此,开发者单独设计了一个模块来处理这个问题,即使是复杂的芳香环系统也能在短时间准确的预测出取代的位置。示例可见下图的Friedel-Crafts 酰化反应,模型通过比较四个芳环的活性并考虑分子结构中存在的取代基的轻微影响(“全局”)将 N-取代的吡咯中的 C2 碳识别为最适合亲电攻击的位点。

下面先介绍一下传统的物理测量的方法,再概述了一下他们的方法。

传统的测量方法

        传统的计算电子密度的量子力学方法有三种:“基于密度”的方法和“基于原子”的方法,还有半经验的方法。“基于密度”的方法直接对分子的电子密度(或电子波函数)进行操作。“基于原子”的方法是基于原子电荷密度的方法,比如原子核静电势 (EPN)和西格玛络合物近似(PA,CIA)。这两类方法的优点是准确,缺点是计算量大不适合大规模的逆合成分析。半经验的方法因为不需要从头计算,因此更适合自动逆向合成分析。已开发的方法包括基于Hückel理论的方法、1H 和 13C NMR位移以及Hammett 取代基常数。

        为了验证上述方法的准确性,开发者还通过实验进行了比较。从数据表中可知所有方法都可以正确预测简单情况下的区域选择性,例如单取代苯(在引入新方法时经常用作基准)或对位二取代苯。但是对于复杂的系统就有了一些差距。其中基于NMR的方法预测能力最低;Hückel的方法需要改进,有待提高;基于EPN和Hammett的方法可可比较准确的预测;PA和ClA的准确度最高。

传统方法在预测芳香族亲电取代反应区域选择性能力的对比,正确的结果(即与文献报道、实验结果一致)用✔符号表示。不正确的预测用 ✘ 标记。当由于所谓的邻对规则而允许反应时使用符号 ≈(即,文献报道的取代位置和预测的位置都是邻对位但具体位置又不同时)。

 Chematica 的方法

        为了快速准确的预测,开发者构建了一个模型。该模型结合了Hammett取代基常数、环平均质子亲和力 (RAPA)、Hückel方法和各种附加经验规则。规则如下:如果是单苯环的区域选择性,结果由Hammett取代基常数决定。当然为了提高准确性,还需添加一些基于经验的规则。对于杂环化合物的区域选择性预测,因为取代位置主要受到杂环的类型控制,所以采用零基启动的方法。即,预测之前根据经验先对环的活性位置进行排序和标记,如果环上存在取代基则用Hammett取代基常数进行补充,以定量测量取代基的影响。对于多环芳烃(PAH),则是使用快速且相当准确的 Hückel 模型,因为Hammett取代基常数在PAH中表现不是很好。

结合上面的规则合成的整体算法如下图所示,模型由两个部分组成。

第一个部分(a)先将分子切成单环,然后根据上面的规则提取环内的活性位置。第二个部分(b)根据环的活性依次删除不太活跃的环,并返回可能发生亲点取代的环。去除活性较低的环分为下面几个步骤:

  1. 通过Hammett常数考虑取代基效应,去除稠合/共轭系统中活性较低的环。
  2. 基于启发式规则,根据环类型、环上吸电子/供电子基的位置和类型对环的活性定量测量,然后删除不太活跃的环。
  3. 根据自定义的规则——环平均质子亲和力 (RAPA)检查剩余的环。前面提到PA 是一种准确但非常耗时的方法,因此可以预先计算无取代的每种环类型环的PA值,然后再根据取代基的类型进行校正(RAPA_real = RAPA_unsubstitute – const*sum(Hammett) + EDG_ Correction),其中 RAPA_real 是具有所有取代基的给定环的 RAPA,RAPA_unsubstitute 是未取代环的PA值,sum(Hammett)通过文献数据获取,,并且 EDG_ Correction是纠正Hammett方法低估对强供电子基影响的误差。用上面的规则,环的活性被量化,然后去除反应性较低的环。

        经过上面的策略过滤掉大部分环后,就可以再剩下的环中挑选出活性相对更高的环了。这一步也是使用启发式规则类似步骤2,但又有所不同。通常,在此阶段之后,仅留下并选择一个环及其最活跃的位置。然而,如果输入分子具有多个相同类型的环,并且在步骤 1-3 中保存了超过2个以上的环。则最终决定于“步骤 5”中的方法。

具体流程可以参照下面的示例。

        为了评估模型的性能,开发者在 Reaxys 数据库收集的 18,000 多个数据进行验证。结果显示预测的准确率超过90%。但这个方法需要排除反应条件中存在过渡金属催化剂或者强碱的反应,因为这两类反应的机制和芳香族亲电取代是不同的。除了这个因素,开发者还对预测错误的反应进行了归纳分类,分类结果如下:

意外的选择性——这种差异要么是由于出版物中报道的产品结构不正确,要么是由于反应机制与 EAS 不同。一个例子是胶束介质中甲苯的硝化,Reaxys 中报道,硝化发生在间位,这可能是由于反应产物命名错误造成的。另一个例子是第二代抗组胺药氯雷他定的硝化。该反应不是通过经典的亲电芳族取代机制进行,而是涉及自由基。

多步机制——即反应通过更复杂的机制进行,涉及改变 EAS 区域选择性的中间体。此类错误的一个例子是对位取代苯胺与硝酸胍的硝化。尽管-NH2 基团激活的是邻位,但该反应在苯胺的间位进行,这一结果可能是胺基首先质子化的结果(由于高酸性环境)。另一个很好的例子是 N-乙酰吲哚的弗里德尔-克来福特反应,该反应导致“6”位出现意外的取代。可能是因为底物与AlCl3络合后影响力环上的电子云排布。

受条件控制的反应——即,根据所使用的亲电子试剂,可能有不止一种区域选择性正确的取代产物。例如,4-氨基苯酚的溴化发生在位置“2”或“3”位置,具体取决于所应用的反应条件。另一个实例中,3-5二羟基甲苯根据所使用的试剂在“2”或“4”位进行选择性溴化。

测试集中的文献错误——即,Reaxys 中报告的反应实际上在原始出版物/专利中没有找到。此类“参考文献条目”错误的一个例子是邻氨基苯甲酸甲酯的反应,根据原始出版物,该反应发生在位置“5”。在 Reaxys 数据库中,被记录在“6”处了。另一个例子是 Reaxys 中报道的氯苯的硝化。根据来源出版物,实际的起始原料是 4-氯甲苯。出版物中报告的正确条目显示在框架中。

2. 去除不符合化学规则的逆合成子

        上面一芳香族的亲电取代为例展示了如何选出符合化学规则的逆合成子,类似的方法可以应用到不同类型的反应中。这里再介绍另一种确保正确模板的方法——去除不符合化学规则的逆合成子。通过机器自动生成的逆合成子可能存在化学物稳定的情况,过滤这些合成子也就可以尽可能的确保选出的合成路线是正确的。开发者们整理了近千个错误的逆合成子,部分如下图所示(“X” = 卤素,“A” = 任何脂肪族原子,“a” = 任何芳香族原子)。其中如小环丙二烯结构、环丙炔衍生物因明显打破布雷特规则而被列入。整理出的无效逆合成子表式适用于所有单步合成策略推荐中。如果搜索出的和合成子在表格当中则可以直接排除不参与后面模板匹配和排序。

3. 选择稳定结果的逆合成子

        相同的反应条件可以应用于分子的多个位置,从而导致不期望的产物混合物,这样的非选择性反应可以被认为是不理想的,在逆合成推荐中应当尽量避免。这种非选择性的反应不仅与反应条件有关,也与反应的底物结构有关。所以在逆合成搜索过程中,可以检测是否有这种具有迷惑性结构的逆合成子,检查方法就是先假定合成子没问题,然后检查如果发生反应形成了多少产物。如果产品数量大于 1,则转换将被标记为非选择性,并在综合规划期间分配惩罚。下图展示了几个非选择性的一些示例。

(a) 逆合成子上存在两个羟基,预期会两种不同的产物,所以该反应被标记为非选择性的。(b) 虽然也存在两个羟基,但这两个反应位点是等效的,可以通过调整摩尔比来干净地进行此类转化。所以算法不会将它们标记为非选择性。 (C) 同一个分子经过两种不同的策略产生了 不同的逆合成子。不对称酮的甲基化会(第一个)形成产物混合物,而3-戊酮的烯丙基化则以几乎定量的产率得到所需的化合物。第一个被标记为非选择性的,应该得到惩罚;第二个则不用被标记。(d)这个涉及到立体化学,上面的两个羟基构型相同所以是等效的;下面的构型不同而应该被标记为非选择性的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值