默克AI逆合成软件的一点细节(二)

这篇文章探讨的是编码反应模板时几个需要考虑的注意事项。

1. 来自非反应中心的干扰

        提取反应模板时,计算机会自动识别化学键发生改变的原子,这些原子被特殊符号标记并以此开始向外扩展n个化学键,所有被标记的部分就是反应中心。但是这样的标记反应中心的方法是存在明显的缺陷,因为它没有考虑整个分子的化学背景和实际的反应情况。用距离核心原子的化学键数作为衡量反应中心的距离大部分情况是准确的,但是在三维空间内超过n个化学键的基团仍然有很大的可能会影响反应核心(例如,SN2、Wittig 等)。

1.1 空间效应

        下图就是一个远程基团影响反应核心的例子。根据反应中心的自动提取方法,当n为3时上图橙色标记的是该反应的反应中心。但是很明显“不是反应中心”的具有立体构型的基团 CH2OMe会对产物的立体构型产生影响。一个简单的解决方法就是增加外拓化学键的数量n为6,如此产生影响的基团也可以被标记为反应中心了。然而这样做很大程度上限制了该模板的适用范围,不仅增加了制作模板的工作量,也为后面合成路线规划增加难度。

1.2 电子效应

        下图是远程基团影响的另外一种情况。相比于图c的消旋产物,图a因为受到棕上立体构型的基团 CH2OMe的影响,产物也是立体选择性的,这是远程基团空间效应的表现方式。对照图a与图b可以发现图b反应失败的主要原因是烷基碘上远程基团硝基的电子效应的影响。由于硝基是强吸电子基,会使得硝基α位的氢具有弱酸性,这与棕生成的锂盐中间体是不相容的。

1.3 活泼基团的影响

        当远离反应中心的区域存在活泼基团时,对反应的结果也是有巨大的影响。例如下图中,如果底物上存在羟基就不可能生成格式试剂而发生反应。一般情况都是先对有影响的羟基进行保护后再进行下一步的反应。所以在编码模板规则时,也应该添加相关的信息。

1.4 其他因素

        除了上述三个常见的因素之外,有时还会有一些特殊情况,甚至在远离反应核心的地方只有一个原子不同,但它们的结果可能截然不同。下图展示了几个这种特殊情况。

(a) 改变两个羟基上的保护基团(橙色OMe替换为绿色OBn和OMOM)改变了醚基团的稳定性并阻止环氧化物重排为醛。

(b) 温度的微小变化会改变反应机制并产生不同的产物。

(c) 电子密度的微小变化改变了 N-新戊酰和 N-Boc 保护的苯胺的反应活性。从而使得两个产物完全不同,尽管其仅在一个原子(氧)上有不同。

(d) 上式因为环氧环的存在使得末端碘化物非常接近,从而实现双 Pd 介导的偶联。相反,当环氧环被双键取代时,碘化物因为距离较远而没发生偶联。

上述的几种因素在有机化学中非常常见的,所以在编码模板时除了自动提取反应中心外,还需要手动的补上一些限制条件或规则。

2. 反应类型统计和“黑天鹅”化学的重要性。

        编码模板时不仅要关注现实中常用的一些反应,也要关注那些不常见但又很有用的反应。这类反应一般是为了合成一些特定的目标而设计的,所以不是很常用;但一旦涉及这类目标使用这类反应将会给整个合成路线带来巨大的帮助,所以编码模板时需要关注这类反应。例如,Meyers 合成多西环素需要前所未有的 LiOTf 催化串联 SN' 环氧化物开环,然后形成叶立德和 [2,3]-重排以构建 A 环(第5步),以及高度非对映选择性串联 Michael-Dieckmann 缩合形成 C 环(第9步)。(1)

再例如,Baran 的 (+)-hapalindole Q 合成依赖于先前未描述的吲哚与香芹酮衍生烯醇化物的氧化偶联。(2)

3. 总结

        基于上面提到的几个因素以及一些其他因素(例如及其缺少负样本数据),机器自动提取反应模板的方法在一些简单常见的反应中表现还可以,但在复杂的更新的反应中表现和人类相比有巨大的差距。事实上,Segler 和 Waller 的工作证实,使用自动生成规则的神经网络比使用 103 条手动编码规则的神经网络效率低得多,除非每个自动提取的规则有超过 5,000 个示例可用(3)。因此,在编码反应模板时除了提取反应中心外,还要加入由人类专家制定的一些规则。这些规则会考虑到反应底物取代基的细微差别、正确的立体化学和区域化学,以及反应性冲突、保护要求和选择性问题。另外编码时也注意哪些不常见但又很有用的反应。虽然这会很费力,但能大大提高模型的实际能力。

  1. Charest, M.G., Lerner, Ch.D., Brubaker, J.D., Siegel, D.R., and Myers, A.G. (2005). A convergent enantioselective route to structurally diverse 6-deoxytetracycline antibiotics. Science 308, 395–398.
  2. Baran, P.S., and Richter, J.M. (2004). Direct coupling of indoles with carbonyl compounds: Short, enantioselective, gram-scale synthetic entry into the Hapalindole and Fischerindole alkaloid families. J. Am. Chem. Soc. 126, 7450–7451.
  3. Segler, M.H.S., and Waller, M.P. (2017). Neural-symbolic machine learning for retrosynthesis and reaction prediction. Chem. Eur. J. 23, 5966–5971.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值