Neuraldecipher-逆向工程：从扩展连接性指纹（ECFPs）到其分子结构-CSDN博客

Le, Tuan等人于2020年在Chemical Science上发表了一篇“Neuraldecipher-reverse-engineering extended-connectivity fingerprints (ECFPs) to their molecular structures”。下面我们来做一下翻译和解读。

保护分子结构，使其不被外界所知，对工业和私人协会（如制药公司）来说具有重要意义。在外部合作时，将分子结构编码为描述符，并以此来交换数据集是很常见的。因为诸如扩展连接性指纹（ECFPs）等分子指纹通常在定量结构-活性关系任务中表现良好，所以我们经常使用这种描述符进行交换。由于ECFPs的计算方式，它们通常被认为是不可逆转的。在本文中，我们提出了一种快速的逆向工程方法，来基于给定的ECFPs推导其分子结构。我们的方法包括Neuraldecipher，这是一个神经网络模型，它可以基于给定的ECFPs预测化合物的紧凑向量表征。然后我们利用另一个预训练模型来检索以SMILES表征的分子结构。我们证明了我们的方法能够在一定程度上重建分子结构，并且，在ECFPs指纹尺寸较大时，我们的方法会有所改进。例如，给定长度为4096的ECFP计数向量，我们能够用我们的方法在验证集（112K个独立样本）上正确推导出高达69%的分子结构。

1.引言
分子结构的数据保护和隐私对工业和私营部门，特别是对制药业来说是至关重要的。由于药物发现的过程至少要持续十年（10-20年），制药公司已经在早期阶段利用计算方法来加速生成靶向生物靶标的有活性的潜在候选药物，并加速丰富了化学库，以用于接下来的筛选和分析。

分子描述符和指纹在计算机辅助药物发现，即虚拟从头药物设计中起着核心作用，因为它们将分子结构的化学信息捕捉为数字向量，可用于一些化学信息学任务的预测建模。在定量结构-活性（QSAR）建模中，目的是对化合物和生物或物理-化学终端之间的关系进行建模。一个生物终端通常是候选药物对靶点蛋白的结合亲和力。由于具有高结合亲和力的候选药物在后期的临床试验中仍可能由于药代动力学和毒理学（ADMET）概况不佳而失败，因此在早期阶段的虚拟从头药物设计中也会考虑建立ADMET端点模型，如溶解度或熔点。

因为在学术界或私营部门的研究小组之间合作共享数据，如指纹和/或测量的终端，往往能改善药物的发现。所以，在不泄露分子结构的情况下安全地交换化学数据，在今天尤其重要。

大规模合作的一个例子是MELLODDY（药物发现的机器学习分类法）项目，这是欧盟的一个创新医学倡议（IMI）项目，总资金为1840万欧元（2019-2022），包括制药公司、大学的研究小组以及中小型企业（SMEs）之间的合作。

重建符合给定化学性质值的分子结构是一个传统的（优化）问题，通常被称为反向QSAR。QSAR中最常用的分子指纹之一是圆形扩展连接性指纹（ECFP）。许多科学应用都需要使用ECFP，从虚拟筛选和相似性搜索到生物靶标预测、蛋白质化学计量学建模和ADMET终端建模。

拓扑ECFP表示法是对摩根算法的细化，通常被hashed并折叠成固定大小的稀疏位（1024、2048或4096位）或计数向量，以进一步用于预测建模任务。在创建指纹的过程中，ECFP算法考虑了原子环境，基于原子邻接的最大数量，即键直径d，并迭代地将串联的（唯一的）特征hash成一个新的整数特征。由于hash函数是随机地、均匀地映射到2（32）大小的整数空间，ECFP通常被认为是不可逆转的。
2013年至2018年期间的**欧洲联合化合物库（JECL）**是IMI的另一项合作成果，由七家制药公司以及学术研究团体和中小企业组成，旨在加速竞争前阶段的药物发现。该成果形成了约50万个小分子的化合物库供进一步筛选。在这50万个化合物中，有31.2万个非商业性的独特样本来自于制药公司，这些样本被转换为ECFP6，并由Besnard等人分析的贡献制药公司共享。与Kogej等人类似，ECFP6是通过无结构比较的方式选择的，没有披露专有信息。

学术机构和中小企业进一步利用制药公司的初始组合库进行重点库设计，增加虚拟生成的化合物，以增加并达到50万化合物规模的最终库。

在本文中，我们描述了一种对ECFP进行逆向工程，并推导出化合物的分子结构的方法。一个简单的对抗逆向工程的方法可以通过对一个具有任意索引的数据集中的ECFP表征的所有指数进行排列来获得，在此基础上，基于该数据集的任何预测模型或分析仍然可以被训练和实现。然而，当进行合作时，如MELLODDY项目，或之前Kogej等人在阿斯利康和拜耳公司或JECL之间进行的研究，**将几个（经过处理的）共享指纹描述符的数据库结合起来做连续的分析，不可避免地需要同时共享排列矩阵。**通过共享重新索引方案，我们又回到了最初的位置，即基于ECFP的化合物反向工程的动机。

相关工作分析了化学描述符在多大程度上可以共享，直到分子结构可以逆向工程。可以共享，直到分子结构可以被逆向工程化。这些研究的重点是披露物理化学性质和拓扑指数。在Masek等人的研究中，作者使用了一种迭代遗传算法（GA）来推荐与目标化合物具有相同化学描述符值的分子结构。遗传算法继续推荐与描述符值相匹配的结构，即最小化一个匹配函数，该函数考虑了几个描述符值。然而，作者只在100个选定的目标化合物上测试了他们的方法，并且只考虑了描述分子的描述符，这些描述符符合Lipinski五项规则，或BCUT描述符和MACCSkey指纹的组合。使用他们的遗传算法，他们得到了大量的假阳性–与描述符值相匹配的分子结构，但实际上不是真正的分子结构。Winter等人做了一个与Masek等人类似的方法，但不是在推导分子结构的背景下。在他们为努力进行药物发现并优化化合物的工作中，作者将分子特性的虚拟预测与虚拟优化算法结合起来，以建议满足甚至积极改善用户所定义的期望特性的分子。

Faulon等人提出了一种随机和确定的反向工程算法，从简单的拓扑学指数，如形状和连通性指数、Wiener和Balaban J和Jt 距离指数以及他们开发的原子特征描述符。**在他们的分析中，作者将退行性定义为在一个给定的化学数据库中具有相同描述符值的结构数量。**从计算的角度来看，具有高退行性的描述符被认为是可以安全交换的，因为这些描述符对应于1到N的映射。当分子量（MW）被交换时，这种直觉就变得很清楚。许多可能的分子结构都可以基于分子量被推导出来。**与Masek等人的工作类似，结合更多的化学描述符可以提高破译真实分子结构的成功率。**然而，在他们的研究中，只从PubChem中随机选择了1000个化合物进行逆向工程，他们的最佳方法实现了12.2%的重建精度，但在（本地）CPU上的计算时间方面存在缺陷。

Kotsias等人和Maragakis等人最近在 "有条件的新药设计 "方面的工作，将化合物的ECFP表征作为输入（种子），并附加生物活性标签来缩小和引导生成过程，以获得感兴趣的化学区域。

他们训练了一个生成模型，对满足生物活性条件并在某种程度上与ECFP种子（输入）相似的新化合物进行采样。他们的研究显示，经过训练的生成模型能够对与输入种子相对应的化合物进行采样。我们工作的动机与Kotsias等人和Maragakis等人不同，因为我们想训练一个模型，学习ECFP和其相应的分子结构之间的关系，与上述工作不同的是，我们的目的是生成新的化合物，偶尔可以重建与ECFP（输入）相对应的化合物。

**对从头分子设计方法的一个常见评价方法是根据所选化合物的ECFP进行再发现。**再发现任务在方法上与我们的方法不同，因为再发现任务的目的是评估在给定数据集上训练的生成模型是否能对选定（靶向）的化合物进行采样（这些化合物被有意的从训练集中排除）。通过成功实现生成模型对靶标化合物的再发现，它对真实世界化合物（可获得的）进行采样的能力得到了加强。Brown等人的GuacaMol基准实现了重新发现任务，作为许多目标定向基准中的一个基准，以评估基于SMILES的生成模型检索三个目标化合物Celecoxib、Troglitazone和Thiothixene的质量。

我们的主要贡献有两个方面。首先，我们描述了Neuraldecipher（如图1所示），这是一种快速的方法，通过将逆向工程任务表述为机器学习（ML）问题，将圆形扩展连接性指纹（ECFP）解读为其以SMILES表征的分子结构。接下来，我们展示了我们的方法是如何根据选定的指纹长度k和键直径d对ECFP进行配置的。这些研究试图回答这样一个问题：**在我们提出的方法能够完全重建未知指纹的分子结构之前，ECFP能够在多大程度上被安全地共享。**我们想强调保护知识产权的重要性，并提高人们的认识，即交换可能的可逆指纹会在竞争层面上对私人机构（如制药公司）造成损害。由于现在私人和公共机构共同合作以加速药物发现是很常见的，就像在JECL或MELLODDY中看到的那样，为计算化学中常见的下游任务开发安全和适当的分子指纹是很有必要的。我们的研究显示了如何逆向设计ECFP，并应激励研究小组在加密化学领域开始一个新的领域。

图1 逆向工程工作流程的说明。基于一个ECFP表征（这里以位向量为例），我们预测相应的cddd表征，并利用Winter等人的固定解码器网络来获得SMILES表征。因此，Neuraldecipher学会了两个编码的分子表征之间的映射。Neuraldecipher的可训练参数显示为绿色箭头，而黑色箭头对应的操作是固定的，在训练期间没有优化。

2.方法
实现重建的一种计算方法是将给定的ECFP样品与一个大型的可访问的化学库进行比较，其中ECFP到SMILES的映射是已知的。然后，通过对给定的ECFP和相应的化学库进行身份检查，然后返回那些与目标ECFP相匹配的样品，就可以推断出分子结构。如果ECFP表征在化学库中找不到，应该通过计算目标ECFP和参考库的每个样品之间的成对相似性，对照该化学库对ECFP进行筛选。相似性的衡量标准可以是各自ECFP对的Tanimoto相似度。然后，通过返回那些具有最高Tanimoto相似度s且满足定义阈值（如s>0.90）的配对来实现分子结构的推断。

我们将逆向工程任务表述为一个机器学习问题，目标是预测给定的ECFP样本的分子结构。我们的逆向工程方法是一个两步法，利用连续和数据驱动的分子描述符（cddd），**一个用于生成分子结构低维向量表示的神经网络模型。**这个模型利用了一个递归自动编码器，它的任务是把化合物的SMILES表示法翻译成它们的经典形式。翻译工作如下：首先，编码器模型将输入的SMILES表征翻译成cddd-表征，这是一种512维的化合物向量表示法，已被证明对QSAR预测和虚拟筛选任务有效。其次，解码器网络将cddd翻译成经典的SMILES表征。SMILES符号是一种将拓扑分子图编码为一串线性符号的表示法。

我们逆向工程的目标是基于一个ECFP输入样本预测相应的cddd向量。一旦我们预测了cddd向量，我们就可以通过利用固定的解码器网络来推断分子结构，该网络返回SMILES表示。我们提出的方法有一个优点，即我们得到的回归模型能够在一次性的情况下更有效地预测ECFP样本的分子结构，而不是一个自回归模型，通过ECFP输入来预测SMILES表示。通过利用预训练的CDDD模型，Neuraldecipher不必学习自己的化学结构表示，并以正确的语法重建SMILES字符串，如图1所示。

为了获得SMILES表示，Winter等人的解码器递归神经网络（RNN）将预测的cddd向量作为输入，并将其送入一个全连接层，其输出被分成三部分，用来初始化三个堆叠的递归层。解码器网络的RNN的输出是一个不同可能字符的概率分布序列，这些字符来源于定义的SMILES，该SMILES由Winter等人分词。deterministic解码器RNN应用beam宽度为10的从左到右的beam搜索来获得最终的SMILES表示。

2.1 Neuraldecipher模型
Neuraldecipher模型是一个具有全连接层的标准正反馈神经网络。让F ℤk是维数为k的ECFP空间，其中k是折叠扩展连接性指纹的长度。根据位或计数扩展连接性指纹，ECFP的条目要么填充{0,1}，要么填充正整数ℤ。CDDD-空间C是一个有界和紧凑的512维空间，即在这里插入图片描述
。Neuraldecipher fq是一个回归模型，从ECFP-空间映射到相应的CDDD-空间，即fq : F/C，其中q是可训练的模型参数集。图1说明了一般逆向工程的工作流程

神经密码的训练是通过最小化距离l(d)=l(cdddtrue-cdddpredicted)来完成的，其中l是对数余弦双曲函数，这是一个与L2平方误差损失相似的损失函数。对数余弦双曲函数被定义为
在这里插入图片描述
隐藏层和相应的隐藏神经元单元的数量取决于输入ECFP的长度，即k，并将在第3节讨论结果。

我们使用ADAM优化器，初始学习率10^-4和5×10^-4作为权重衰减系数。我们对Neuraldecipher模型进行了300个epochs的训练，批次大小为256。根据一个高原调度器，学习率被更新并乘以0.7，相对于验证指标而言，高原调度器的patience为10个epoch。此外，我们应用了早期停止，对验证指标的patience为50个epoch。在所有的训练实验中，验证指标是验证集上的损失。

2.2 数据集
本研究中使用的数据是从ChEMBL数据库中提取的，包括1,870,461个分子结构。我们使用RDKit检索了经典的SMILES表示，并删除了立体化学。我们还删除了重复的内容，并使用与Winter等人相同的标准用RDKit 进行了过滤：只有有机分子，分子量在12到600Da之间，超过3个重原子，分配系数log P在-7到5之间。此外，我们删除了盐类，只保留最大的片段。在这个过程之后，我们处理过的数据集包含1,526,990个不重复的标准SMILES表征。然而，在许多应用中，当在与训练数据不同的数据分布上进行测试时，机器学习模型往往不能进行概括。为了检查我们的模型是否过度拟合，并激励一个真实世界的场景，我们将处理过的SMILES数据集聚成10个组。这些聚类是通过首先使用RDKit计算每个SMILES表征的MACCSkey指纹，然后在MACCSkey指纹上利用sklearn的KMeans聚类实现。
为了获得训练和验证集，我们计算了10个聚类中心点之间的平均配对距离。然后，通过检索其中心点与其他聚类中心点的平均距离最大的聚类（在我们的例子中，聚类7）来选择验证集。最后，我们的训练集包括1,414,658个样本，验证集包括112,332个样本。我们把这个分割过程称为聚类分割。**为了评估我们的模型在随机分割中的表现，我们将处理过的数据集随机分为训练集和验证集，验证集的大小与聚类分割的情况相同。**模型的训练是用训练集完成的，模型的选择是基于对验证集的评估。

我们还在两个未见过的子集上测试我们的模型，这两个子集与训练集没有重叠。与训练集的重叠。第一个子集是过滤的ChEMBL26的时间分割（有55，701个独特的化合物），第二个子集由我们的一个内部数据库的化合物组成（有478，536个独特的化合物）。与ChEMBL25相比，ChEMBL时间分割包含ChEMBL26数据库中的新化合物。对于内部数据库，我们从我们处理过的数据库中随机抽出500，000个化合物，这些化合物与ChEMBL25数据库没有重叠。我们对这两个数据集应用了与之前相同的预处理过滤器。表1列出了经过处理的数据集、内部数据集和时间数据集的统计数据，图2显示了分布图。

表1 经过处理的数据集、内部数据集和时间数据集的统计数据。列出的数值是每个描述符的平均值（标准偏差）。描述符的值是用RDKit计算的。最后一列显示了每个数据集的独特样本数
在这里插入图片描述

图2 不同数据集中的分子特性（分子量、原子数、键数、芳香环数）的分布情况

2.2.1 ECFP数据
为了分析折叠的ECFP在多大程度上可以被安全地交换，我们创建了长度为k{1024, 2048, 4096, 8192, 16 384, 32 768}的ECFP位和计数向量。键直径d被选为d=6，导致ECFP6,k位和计数指纹。由于位/计数的collision随着指纹大小的增加而减少，所以在ECFP中保留了更多关于分子结构的信息。根据这一想法，我们的假设是，在较大的ECFP尺寸上破译分子结构会变得更加准确，因为折叠的ECFP坚持较小的信息损失。为了深入了解该模型在不同键直径的指纹上以及在固定长度上折叠的指纹上的表现，我们计算了长度为4096和键直径为{4, 8, 10}的ECFPs。
2.2.2 CDDD数据
为了训练和验证我们的方法，我们利用Winter等人的编码器网络为我们处理过的数据集，即训练集和验证集中的每个独特的SMILES表征，获得了cddd向量表征（表1）。

3.结果和讨论
对于前面介绍的每个ECFP设置，我们通过定义可能的参数来进行超参数搜索，并使用网格和随机搜索来寻找最佳参数，最大试验数为200次。关于超参数优化的描述，我们参考了ESI†，并在下文中报告了一般模型结构和训练过程。每个隐藏层由三个连续的操作组成：仿生线性变换、批量归一化和ReLU激活。在最初的实验中，我们测试了其他激活函数，如leaky ReLU、ELU和SoftPlus，但发现ReLU优于上述非线性。

因为cddd-vectors在[-1, 1]范围内，我们至少应用了3个隐藏层，并将隐藏神经元单元减少到512个，然后是有512个神经元的输出层，并应用tanh非线性作为输出激活。所有模型都在PyTorch中实现。

3.1 退化分析
任何分子描述符或指纹都会产生一个自然的问题，那就是退化。回顾一下，作为描述符的分子量具有很高的退化性，因为许多化合物可以对应于某个分子量。由于ECFP算法迭代地将原子环境映射到特征上，随着键直径d不断增加，我们相信从我们处理的数据集（140万个化合物）中计算出的ECFP集包含许多的独特样本。一般来说，选择的键直径d越大，一个化合物越多的局部特征被用于创建最终指纹。为了分析ECFP的独特性，我们计算了随着键直径d增加，每个ECFP数据集的退化性，并在图3中显示了对长度为4096的位ECFP的分析。
在这里插入图片描述
图3 每个退化现象的频率计数。随着键直径d的增加，每个退化现象的计数减少，即有更多独特的ECFP样本。柱状图显示的是退化现象[2, 3, 4, 5]的计数。大于6的退化现象没有显示，因为6个不同的结构映射到同一个ECFP的频率很小。

横轴表示退化，也就是说，它标志着二重复、三重复等的存在。由于我们想计算二重复、三重复等出现的频率，我们排除了1的退化，即在处理的数据集中只出现一次的独特ECFP样本的数量。

3的退化意味着3个不同的结构具有相同的ECFP。由于这种情况可能多次发生，纵轴计算了每个退化现象在处理过的数据集中出现的次数。随着ECFP_d，4096位向量的键直径d的增加，唯一样本的数量增加，即二倍、三倍等的退化计数减少。在ECFP算法中，较高的键直径会导致更多的唯一性，因为在较大的原子环境中迭代时，会捕获更多的结构信息（见表2）。

表2 第一列描述了ECFP设置中的键直径d和长度k，第二列说明了ECFP-位向量的非唯一样本数，而第三列显示了ECFP-计数向量的非唯一样本数。为了说明非唯一ECFP的数量主要受键直径d的影响（对于可变长度k），还列出了长度为1024和键直径为6的ECFP_6,1024的结果
在这里插入图片描述
在固定直径d=6和增加向量长度k的情况下，非唯一样本的数量差别不大，因为ECFP（折叠成固定长度k的向量）在较大的指纹向量中代表相同的结构。

关于每种情况下的非唯一性样本的详细清单，我们参考ESI†。

由于与ECFPs相比，编码的cddd-representation得益于与给定的SMILES是单映射的关系，因此一个要分析的有趣的跳跃是编码的cddd-representation之间的距离，其中从ECFP到SMILES的映射是非唯一的（我们称该SMILES集为元组Sd）。一般来说，来自ECFP的非唯一性的影响会在两种情况下影响到Neuraldecipher的训练。在第一种更可取的情况下，由Sd元组编码的cddd的（平均）距离很低，这意味着在学习从ECFP空间到CDDD空间的映射时，相应的CDDD空间的失真很低。因为模型遇到的ECFP样本映射到不同的cddd-representations，学习从ECFP空间到CDDD空间的映射会受到干扰，所以，第二种情况包括较大的平均失真，可能会降低Neuraldecipher的训练效果。为了分析这两种可能的情况，我们检索了SMILES集合Sd，其中包括映射到相同ECFP的SMILES表示的元组（即二倍的、三倍的等，见图3）。我们为Sd的每个元组检索相应的cddd，并计算元组中每对元组的平均余弦距离。

图4说明了ECFP_6,1024位向量设置的结果。具有不同SMILES表示法的二元ECFP的模糊性并没有在相应的CDDD-空间中造成大的失真，因为无监督学习表征将结构上非常相似的SMILES映射到接近的空间中，正如平均余弦距离为0.0417所示。图4中的右图显示了第一种情况（低失真，即余弦距离≤0.05）和第二种情况（高失真，即余弦距离≥0.20）下随机选择的两对分子。然而在第二种情况下，二元ECFP可能会误导性地映射到一种表征，其中分子的差异更大（图4第二行的分子对的余弦距离为0.3335）。由于二元ECFP只捕捉到某些原子环境的存在（而不是计数，与计数ECFP相反），图4中右图第二行的分子对应于相同的ECFP，但对应具有较大失真的不同cddd-representations。
在这里插入图片描述
图4 属于同一组SMILES的cddd-representation之间的平均余弦距离，这些SMILES映射到相同的ECFP表征。平均而言，余弦距离很小，为0.0417。

3.2 结果和讨论
我们针对每个ECFP设置，在一个聚类和随机分割上训练了不同的Neuraldecipher模型。ECFP设置是由键直径d、指纹长度k和以位或计数显示ECFP决定的。

训练结束后，为了对验证、内部和时间数据集进行最终评估，我们预测了相应的cddd-向量，并利用Winter等人的解码器网络检索了SMILES表征。

3.3 在固定直径d=6的情况下，改变长度k
表3列出了随着长度k不断增加，ECFP_6,k位向量在聚类和随机分割上训练的结果。

表3中的重建列对应于真实输入的SMILES表征和推导出的SMILES表征之间的二进制字符串匹配的准确性。因此，重建是指在ECFP6位向量的情况下，正确推导出准确的分子结构的准确性。Tanimoto列说明了真实输入的SMILES和推导出的SMILES表征之间的平均Tanimoto相似度。为了计算Tanimoto相似度，我们检索了真实和推导出的SMILES的ECFP_6,1024位指纹，并利用了RDKit的Tanimoto相似度实现。我们将Tanimoto相似度作为逆向工程良好性的代表，因为我们的模型可能无法完全推导出准确的分子结构，但仍然能够重建（结构上）类似于真实化合物的化合物，这可以在后续任务中进行优化。

表3 基于ECFP6位向量的反向工程分子结构的结果。为了计算所有长度的平均Tanimoto相似度，我们首先计算了真实和重建的SMILES的ECFP_6,1024位向量，然后将该元组解析为RDKit的Tanimoto相似度。我们在所有长度k中选择了一个固定的ECFP配置，以便在验证（Valid.）、内部（Inter.）和临时（Temp.）数据集上有一个适当的和可比较的评估。较大的值到100是更好的
在这里插入图片描述
考虑到我们正在使用解码器网络来检索预测的cddd-representation的重构SMILES表征，重构的SMILES的有效性，即字符串表示是否遵循SMILES语法，是非常重要的，特别是在生成模型中。

在所有的实验中，SMILES在测试数据集（验证、内部、时间）上的有效性，大部分时间都在98%左右。关于每个配置的有效性的详细情况，我们参考ESI†。所有指标都是使用验证（Val.）、临时（Temp.）和内部（Inter.）数据集计算的，模型在训练期间没有见过这些数据集。

正如预期的那样，当从验证数据集推导出分子结构时，在随机分割上训练的模型比在聚类分割上训练的模型表现得更好。例如，ECFP_6,1024的模型在聚类拆分的训练下，能够从验证数据集中正确推导出12.14%的结构。聚类拆分的重建结果较小，因为验证数据集包含的化合物很可能位于一个化学空间中，而模型在训练时没有见过。当模型在随机拆分的基础上进行训练时，验证数据集的28.70%可以被正确地逆向工程化。对于内部数据集和时间数据集，聚类拆分和随机拆分的性能在所有模型中都几乎相似。这种见解是正常的，也是预料之中的，因为内部和时间集的数据分布一般与处理后的ChEMBL25数据集不同。

**因为ECFPs不容易因为hash碰撞而造成信息损失，我们的假设之一是，从折叠的ECFPs中逆向工程分子结构的概率随着ECFPs尺寸大小的增加而增加。**我们的实验证实了这一点（表3），因为在所有的评估数据集中，用较大的ECFP6输入位向量训练的模型更有能力正确推导出分子结构。将ECFP的大小从16, 384增加到32, 768并不能很好地改善性能，因为通过哈希碰撞的信息损失很小。关于对所分析的指纹长度的哈希碰撞的分析，我们参考ESI.†。

我们的逆向工程工作流程具有快速计算中间的cddd-representation的优点。在给定不同的ECFP表征的情况下，预测1 M个化合物的前向传递所耗费的时间，在给定长度为1024的ECFP时，大约为5秒，而在给定大小为32,768的ECFP时，则高达100秒。使用cddd-解码器RNN模型来获得SMILES表征时，由于序列模型的性质和beam搜索的整合，需要更多的时间。将1 M个cddd-representations解码回SMILES表示，需要大约38分钟。在长度为32,768的ECFP-representation被用作Neuraldecipher的输入的情况下，1M个化合物的完整逆向工程工作流程需要大约39分钟和40秒。所有的计算都是在一个现代Nvidia Tesla V100 GPU上进行的。

在接下来的研究中，我们用相同的网络结构对表3中的模型进行了训练，输入是每个指纹长度的ECFP6-计数向量。由于ECFP6计数向量比相应的ECFP6位向量保留了更多关于分子结构的信息，预计在ECFP6计数向量上训练的模型会比只在位向量上训练的模型表现更好。表4显示了这项研究的结果。**与表3相比，在ECFP6计数向量上训练Neuraldecipher模型产生了更好的性能指标，见表4。**对于在1024长度的ECFP上训练的聚类分割模型，当在计数向量上训练时，验证数据集中分子结构的正确重建率提高到22.49%，而在位向量上训练时则为12.14%。前面所做的关于随着指纹大小的增加而表现更好的结论也反映在表4的结果中。使用我们的逆向工程方法，当共享长度为4096的ECFP-计数向量时，我们能够从拜耳内部数据集（478K样本）中正确推断出大约150K化合物，准确率为31.73%（见表4，随机分割）。考虑到我们只使用ChEMBL的公开数据来训练Neuraldecipher模型，在与合法的合作伙伴交换ECFP时必须格外小心，因为分子结构的保护对制药公司很重要。所有模型的SMILES的有效性和以前一样，平均为98%。由于训练过程中选择模型的学习率调整策略和早期停止机制只受每个epoch的验证集的损失的影响，我们只根据最终选择的模型计算表3和表4中的评价指标。为了观察评价指标（即重建准确度和Tanimoto相似度）的进展，我们在不提前停止的情况下，对ECFP_6,4096个计数向量在聚类分割数据集上进行了300个epoch的Neuraldecipher训练，并在每个训练epoch后计算相应指标。图5显示了重建准确度和Tanimoto相似度在epoch中与验证集的损失相比的进展。

图5显示，随着验证集的损失的减少，验证数据集上的重建准确度和平均Tanimoto相似度都在增加。然而，验证数据（112，332个样品）的重建准确率似乎不稳定，平均达到41%。尽管该模型不能完全推导出分子结构，但它能够平均重建出平均Tanimoto相似度为72%的化合物。

当绘制真实cddd和预测cddd在相应CDDD-空间的欧几里得距离并与（1-Tanimoto相似度）作对比时，图5b中（1-Tanimoto相似度）和验证集的损失之间的正向关系也显示在分析中。更多细节请参考ESI。 †

表4 基于ECFP6-计数向量的反向工程分子结构的结果。为了计算所有长度的平均Tanimoto相似度，我们首先计算了真实和重建的SMILES的ECFP_6,1024计数向量，然后将该元组解析为RDCit的Tanimoto相似度。我们在所有长度k中选择了一个固定的ECFP配置，以便在验证（Valid.）、内部（Inter.）和临时（Temp.）数据集上有一个适当的和可比较的评估。较大的值到100是更好的
在这里插入图片描述

在这里插入图片描述
图5 ECFP_6,4096-计数模型在训练期间的重建准确度和Tanimoto相似度在epoch中的进展。每张图显示了相应的指标和每个epoch训练后的验证集的损失（聚类分割验证）。

3.4 在固定长度k=4096的情况下，改变键的直径d
表3和表4中的结果显示，当指纹长度k增加和共享计数向量而不是位向量时，成功重建分子结构的性能得到改善。我们接下来的研究分析了我们的模型在固定的ECFP输入长度k=4096和不同的键直径d上的表现。

由于ECFP算法中的键直径d决定了每个原子的迭代次数，以捕获原子环境的结构信息，所以基于键直径d‘>d生成的ECFP是ECFP的超集，该ECFP是以键直径d创建的。在每个直径，指纹是前一个直径的特征的组合，加上该步骤发现的任何新特征。换句话说，相对于用较小的键直径d创建的ECFP，键直径d’较高的ECFP位向量或计数向量可以捕获更多的信息，指纹的条目可以更多地填充1或整数。我们从ECFP_6,4096模型中选择了相同的网络结构，在ECFP_6,4096位向量和计数向量上训练模型，其中d属于{4，8，10}。表5中列出了在聚类分割和随机分割上训练的实验结果。

表5中的结果与在随机分割（rs）上训练的模型在验证数据集上的表现相比，在聚类分割（cs）上训练的模型表现更好。当模型在聚类或随机分割上训练时，内部和时间数据集上的表现似乎没有实质性的区别。用计数向量作为输入训练的模型比用位向量训练的模型表现更好，因为计数向量保留了更多的分子结构信息。

然而，我们观察到，**无论模型是在哪种分割上训练的，性能都会随着键直径的增加而下降。**回顾一下，具有较大键直径d’的展开的ECFP是具有较小键直径d的展开的ECFP的超集，因为在指纹算法中，**较高的键直径（d’>d）会捕获更多的子结构。**所以一般来说，未折叠的ECFPd’比未折叠的ECFPd捕捉到更多的信息。将ECFPd’折叠成4096的固定长度，即折叠成ECFP_d’,4096，包括了由于哈希碰撞造成的更多信息损失。请注意，我们在研究增加指纹长度k的行为时得出了类似的结论：随着指纹长度k的增加，损失的信息更少，因此ECFP_d,4096的模型性能也在增加（见表3和4）。**因此，当输入为ECFP_4,4096时，训练Neuraldecipher（具有固定的网络结构），与设定的ECFP_6,4096相比，性能更好。（4的信息少，折叠后损失的少，6的信息多，折叠后损失的多,可能引起这种改变。如果不折叠，ECFP6>ECFP4）**从直径8到10的性能下降与其他差异（即4到6和6到8）相比相当小，因为展开的ECFP8表征在大多数情况下与展开的ECFP10表示相同，将这些表征折叠成固定长度的4096导致相同的碰撞。关于哈希碰撞的详细分析，我们参考了ESI.†。

表5 在聚类（cs）和随机（rs）分割上增加键直径d，固定长度为4096的ECFPs的逆向工程分子结构的结果。为了完整起见，列出了表3和表4中ECFP_6,4096的结果。为了计算Tanimoto相似性，我们总是计算真实SMILES和重建SMILES表示的ECFP_6,1024计数/位向量，以便对所有的键直径有一个适当的和可比较的评价。第一列说明了键直径为d的ECFP以及聚类（cs）或随机（rs）分割的标志。100以内的数值越高越好
在这里插入图片描述

**3.5 将neuraldecipher与基准进行比较 **
为了进一步分析聚类验证数据集（112K样本）中Tanimoto相似性的大小，我们将我们的方法与虚拟筛选中的纯计算方法（称为 “数据库分析基准”，在第2节开始时解释过）进行比较。

对于每个验证样本，我们计算了与参考（库）训练集（1.4M样本）中每个样本的所有成对的Tanimoto相似性§。然后，我们通过计算上述成对相似度的平均值来计算每个验证样本的平均Tanimoto相似度（“All- Average”）。对于baseline，我们选择了Tanimoto相似度最高的前5个参考（训练）样本（来自成对相似度），并计算了每个验证样本的前5个参考的平均值（“Top-5-Average”）。"Top-5-Average "方法展示了一个来自化合物库分析的弱基线。"All-Average "步骤旨在显示一个验证样本与参考文献中所有样本的平均相似程度，而 "Top-5-Average "程序旨在显示一个验证样本与参考文献中前5个最相似样本的平均相似程度。图6显示了 “All-Average”、"Top-5-Average "和我们的Neuraldecipher模型（在ECFP_6,4096个计数向量上训练）之间的Tanimoto相似度分布。

正如预期的那样，通过聚类划分，验证集和训练（参考）集之间的Tanimoto相似度平均为0.1255，很小。“Top-5- Average”"baseline（图6中的红色阴影）得到的平均Tanimoto相似度为0.5053，胖尾巴接近Tanimoto相似度为0.8。然而，baseline（甚至Top-1-Average）不能重建验证样本，即重建准确度为0。这意味着训练（参考）集不包含 "真正的 "验证样本。这一见解与表2是一致的，表2显示了ECFP_6,4096计数数据集的232个非唯一样本。在这种情况下，所有非独特的样本都在训练（参考）集中得到体现。然而，我们的Neuraldecipher实现了0.4102的重建，平均Tanimoto相似度为0.7218。Neuraldecipher的Tanimoto相似度分布沿着水平轴在0.4和0.7之间的肥大的尾巴（图6中的绿色曲线）可能是由Top-5-Average样本的贡献造成的。这意味着我们的Neuraldecipher重建结构相似的分子化合物具有以上Tanimoto相似度范围，因为平均而言，该模型可以学习的最佳结构也分享这个Tanimoto相似度0.5053。因此，在Tanimoto[0.8-0.9]的范围内，概率质量较小。为了比较baseline和我们方法的性能，我们在图7中绘制了Top-5-Average Tanimoto相似度与我们重建的Tanimoto相似度。

图7a和b显示，我们提出的方法平均表现得比baseline方法好。在112K的验证样本中，我们的方法可以重建85K的样本，这些样本的Tanimoto相似度高于baseline模型，即在所有情况下的75.89%。这在图7a的等高线图中得到了说明，在图7b的分布图中，对于τ2-τ1>0.0的情况下，这一点更加明显。为了分析近似重建的作用，我们检索了我们的反向工程工作流程返回的Tanimoto相似度小于1.0的化合物样本子集。我们采用了非参数配对Wilcoxon秩和检验，无效假设是我们的反向工程工作流程的Tanimoto相似度的样本分布与baseline相等，另一假设是样本分布不相等，即H0：τ2=τ1与H1：τ2≠τ1。Wilcoxon秩和检验具有高度的统计学意义，P值为p＝1.1921×10^-7＜a＝0.05，在5-%的显著性水平上拒绝H0，表明样本分布不相等。我们的方法的平均Tanimoto相似度（0.5363±0.1512）表明，它在选定的子集上（大约有66.7K的样本）的平均表现比基线（0.4925±0.1105）好。

此外，我们的逆向工程工作流程得益于从更快的计算中获益。回顾一下，baseline模型需要计算N×m的成对相似性，其中N=1，414，658，m=112，332，随后必须按递减顺序进行排序。使用96核CPU机器的所有核，baseline模型的耗时约为3.75小时。我们的逆向工程工作流程只需要使用一个Nvidia Tesla V100 GPU大约5分钟，并实现了更好的重建精度。

人们可以争辩说，通过增加参考库的大小来保留一个更强的baseline，因为目标集和参考库之间的重叠可能更大。然而，计算目标库和参考库之间的成对相似性在计算上很昂贵，而且不能很好地扩展。此外，我们应该考虑到，在现实生活中，目标数据集包括来自私人机构的内部化合物，这些化合物正是逆向工程感兴趣的。一般来说，baseline方法不能够根据ECFP推断出真正的化合物。然而，如果目标库和参考库之间存在重叠，这种重叠往往是由公开的分子引起的，这些分子也存在于开放的数据库中，正如Kogej等人在筛选阿斯利康和拜耳公司库之间的重叠或其他相关工作时所探讨的那样。
在这里插入图片描述
图6 直方图说明真实的SMILES表征和从平均训练（蓝色）、基线模型（红色）和我们在验证集（112K样本）上重建的SMILES表征（绿色）之间的Tanimoto相似度分布。

在这里插入图片描述
图7 在验证数据集（112K样本）上，Neuraldecipher和baseline模型wrt. 在Tanimoto相似度方面的比较。

4.结论

在这项工作中，我们提出了一种逆向工程方法来推断给定扩展连接性指纹（ECFP）的分子结构。为了确定能在多大程度上重建结构，我们在几种不同长度k和键直径d的ECFP创建的指纹设置上测试了我们的方法。一般来说，随着指纹大小的增加和被揭示的计数向量，我们的方法能够更好地从我们的方法以前没有见过的大数据集中重构分子结构。我们选择了ECFP来进行逆向工程，因为ECFP是QSAR和ADMET建模中常用的指纹，通常被认为是不可逆转的。在交换长度为4096的ECFP-计数表示的情况下（见表5），我们的方法能够从ChEMBL25的随机子集（112，332个独特的化合物）中正确重建68.92%，从ChEMBL26临时集（55，701个独特的化合物）中正确重建38.78%，从我们内部数据库的一个随机子集（478，723个独特的化合物）中正确重建34.23%。虽然，也很幸运，我们在测试集上没有达到完全的重建，由于在将未折叠的ECFP折叠成固定长度的向量时的信息损失，通过改变训练程序可能会有小的改进。由于我们将逆向工程任务制定为一个机器学习问题，并利用神经网络作为模型类别，找到最佳的网络结构和制定不同的损失函数进行训练，就有可能获得更好的性能。我们建议在交换扩展连接性指纹时应谨慎，因为这有可能损害知识产权和丧失竞争优势，因为我们的方法在一定程度上能够重建分子结构。
我们希望我们提高了对交换ECFP表征时的危险性的认识，并促使在密码化学领域建立一个新的研究领域，为化学信息学开发安全和适当的指纹。

Availability Source
Source code of the proposed method is openly available at https://github.com/bayer-science-for-a-better-life/ neuraldecipher.