Briefings in bioinformatics2021 | QSAR模型中，传统表征要优于molecular embedding？

最新推荐文章于 2023-08-31 21:45:47 发布

羊飘

最新推荐文章于 2023-08-31 21:45:47 发布

阅读量825

点赞数

分类专栏：论文阅读--molecule 每日读论文分子性质预测文章标签：论文阅读

本文链接：https://blog.csdn.net/justBeHerHero/article/details/128077217

版权

每日读论文同时被 3 个专栏收录

56 篇文章

订阅专栏

论文阅读--molecule

35 篇文章

订阅专栏

分子性质预测

16 篇文章

订阅专栏

论文研究了分子嵌入在定量结构-活性关系(QSAR)建模中的效果，发现传统分子表示如ECFP和MACCS在多数情况下优于学习到的嵌入。有监督的分子embedding在某些任务中表现突出，但总体上未显著超越传统方法。实验强调了对分子embedding技术进行详细比较的重要性，并指出尽管如此，最新的模型在某些场景下可能已经超过了传统表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题：Using molecular embeddings in QSAR modeling: does it make a difference?

GitHub - VirginiaSabando/MolecularEmbeddings: Official site for "Using Molecular Embeddings in QSAR modeling: Does it Make a Difference?" (Briefings in Bioinformatics, 2021)

一、问题提出

尽管已有的分子表征方法层出不穷，但如何选择最适合QSAR分析的表征方法还没有实证研究。最近发表的一些研究表明，分子embedding在QSAR建模中似乎只匹配或略超过传统表示。虽然在分子embedding和传统表示之间建立一个公平的比较不是很直接，但这样的比较是必要的，它需要通过广泛和仔细的实验工作流程来进行。

旨在回答一下问题：

Q1: 文献中用于QSAR建模的主要分子embedding方法是什么? 在分类/回归任务中，它们是否优于传统的分子表示?

Q2: 将生物目标的信息整合到分子embedding(有监督embedding)中是否会比从无监督embedding中获得更高的预测性能?

Q3: 不同的预处理决策，例如SMILES标准形式或最终embedding的大小，是否对使用分子embedding的QSAR模型的预测性能有显著影响?

二、模型方法

1、Materials and methods

ZINC数据库：200M数据。

预处理阶段结束后，随机选择了4000万个化合物的子集用于训练。

选择了8个不同的标记数据集、5个分类数据集和3个回归数据集用于评估。

对比模型（5个，3个有监督、2个无监督）：

2、Experimental design

Training and embedding extraction

Evaluation of the molecular embeddings

三、实验

1、回答第一个问题：

比较使用传统分子表征molecular descriptors、ECFPs、MACCS

在NB、SVM和RF分类器中，传统分子表示对所有数据集都产生了最好的结果，显著优于大多数学习嵌入。在不平衡数据集—“SR-ATAD5”和“HIV”—的情况下，“ECFP”显著优于使用NB的其他表示，在其他分类器的最佳表现表示中，如图5C所示。“MACCS”和“molecular descriptors”也产生了明显优于大多数数据集和分类器中的学习embedding的结果。在' PCBA-686978 '(图E)的情况下，除FFNN外，在所有分类器中使用传统表示都获得了最佳结果。使用三种传统表示方法得到的结果无显著差异。FFNN的最佳结果通常是使用' SA-BiLSTM '获得的:这是对' SR-ARE '， ' SR-MMP '和' SR-ATAD5 '数据集观察到的。对于数据集“HIV”，“ECFP”获得了最好的FFNN结果，显示出对所有学习嵌入的显著差异，而“Mol2Vec_300”对数据集“PCBA-686978”获得了最好的FFNN结果。这些表现出：在所有情况下，这些结果都明显优于使用其他学习过的embedding得到的结果，如下图所示：