仰望星空_5-CSDN博客

原创智能合成：有机合成中的智能化与自动化

文章的内容来源于书籍《分子科学中的机器学习》，全书的获取方式在文章结尾。1. 摘要在本章中，我们将简要介绍有机合成中的智能化和自动化。本章包括五个主要部分。在第一部分中，讨论了计算机辅助的反综合规划的例子。在第二部分中，将讨论反应结果预测模型，它利用机器学习来建立反应产率、反应选择性、反应中间体、反应类型、反应产物和反应条件预测的模型，还简要介绍了建立反应预测模型的基本要素。第三部分将介绍机器学习辅助反应发现和优化的相关例子，然后是自动合成和实验室机器人的特殊代表性案例。最后，讨论化学家

2023-10-17 17:21:21 1165 1

原创论文笔记|基于副产物的单步逆合成预测

图b显示了选择过程。通过分析目前一些模型的top-1结果，作者发现当化合物具有多个潜在反应中心时，直接预测的模型倾向于做出简单的预测，而逃避复杂的预测；对于RPBP，如果没有人工干预，也就是直接将第一阶段模型预测的副产物输入到第二阶段模型中来预测反应物， RPBP 和 GraphRetro对于氢化获得产物的偏好是一致的。至于解码层，则是根据上面的图的表示预测可能的副产品和相应的概率。另外，由于RPBP的预测精度受到第一阶段副产物预测的极大限制，未来的工作可以通过融合反应中心的信息来进一步提高模型的性能。

2023-09-25 17:34:19 279

原创默克AI逆合成软件的一点细节（六）

在 n 个合成步骤内，有约 100n 条可能的途径通向所需的目标——即使对于相对较短的合成，如此数量的可能性也太大，无法以详尽的方式探索。避免这种复杂化的唯一方法是教会机器以智能的方式搜索合成可能性的空间，并将搜索引导向最有效、最优雅的步骤序列，而不是探索整个可能的合成路线。除了可以自定义分子，用户还可以进一步指定终端节点的属性，例如分子量（“继续合成搜索，直到找到分子量低于特定阈值的终端节点”）或价格（ “仅当每克可购买基材的价格低于指定阈值时才停止”）。而且，最短的合成路线也不一定是成本效益最优的。

2023-09-24 20:27:28 194 1

原创默克AI逆合成软件的一点细节（五）

我们知道现实的有机反应是非常复杂的，即使尽我们所能最细致的编写分子背景和反应规则也不能确定模板在任何情况下的适用性。所以除了尽可能充分详细的编写模板外还需要另外编写一些策略帮助模型选出尽可能正确的模板，或者说减少一些错误的和具有迷惑性的逆合成子。这些逆合成子对于化学家来说很容易就能判断是否能生成产物，但对于机器来说可能是比较难判断的。1.

2023-09-22 22:30:19 231 1

原创默克AI逆合成软件的一点细节（四）

因为根据具体的反应条件，要保护的基团可能需要使用不同的保护基团。反应条件我们可以从模板内反应条件编码中直接提取，不同的编码表示不同的反应条件，例如“WL62”表示“硫醇亲核试剂”，“CB65”的条件代表软路易斯酸。第二步：检查合成子的其余部分是否存在不相容的基团或者需要保护的基团。检查到相关的基团后会报告给用户，并把应用改模板的反应标记为低可能性的反应，路线自动规划时也给与较低的分或者不采用。然后对照反应条件和保护基团相容性对照表却找合适的保护基团，对应图中就是第26列第2、4、6行。

2023-09-22 09:49:10 82 1

原创默克AI逆合成软件的一点细节（三）

反应模板包含下面几类信息：模板名字、反应符号标记（SMARTS）、反应条件的分类、典型的反应条件，需要保护的基团、不兼容的基团列表、参考文献。

2023-09-22 09:47:53 148 1

原创默克AI逆合成软件的一点细节（二）

基于上面提到的几个因素以及一些其他因素（例如及其缺少负样本数据），机器自动提取反应模板的方法在一些简单常见的反应中表现还可以，但在复杂的更新的反应中表现和人类相比有巨大的差距。用距离核心原子的化学键数作为衡量反应中心的距离大部分情况是准确的，但是在三维空间内超过n个化学键的基团仍然有很大的可能会影响反应核心（例如，SN2、Wittig 等）。下图是远程基团影响的另外一种情况。相比于图c的消旋产物，图a因为受到棕上立体构型的基团 CH2OMe的影响，产物也是立体选择性的，这是远程基团空间效应的表现方式。

2023-09-20 15:26:59 229 1

原创默克AI逆合成软件的一点细节（一）

2. 缺少能够规划（组合）出好的合成路径的算法，使总的合成代价最低且符合人们的需求。在SYNTHIA™的10万多个模板中每条模板的核心都是一个决策树，如图 1A 中所示的决策树，用于带有手性中心的酯与手性中心的醛的缩合。为了确保产物的构型正确，考虑了第一个原料的位置#8、#1和#3的取代基，以及第二个原料的位置#12的取代基、#2和#11的手性结构、#14的原子情况。除了要避免错误外，理想的合成路线还需尽可能符合人们对高效、低成本的期望，这就需要对提取的路线进行打分，根据分数的高低判断路线的优劣。

2023-09-19 22:03:53 356

原创论文笔记|百度AI制药大赛冠军背后的技术（ViSNet源码）

想详细了解的可以看上一篇文章的介绍，或者阅读论文。github地址： https://github.com/microsoft/ViSNet/tree/OGB-LSC%40NIPS2022。以下展示的是与模型相关的源码以及我阅读源码时的一些笔记，想进一步了解数据处理模块或输出模块，或者想深入了解的需要下载源码自己深入探究。提示：由于没有找到论文对应的源码，这里看的是与原论文相似的另一篇论文的源码。下面是特征提取部分的源码，接下来从前往后依次深入展示。#初始化边的索引，权重值，方向向量。

2023-09-15 15:32:01 390

原创论文笔记|百度AI制药大赛冠军背后的技术（ViSNet）

王童研究员团队提出全新的新冠小分子药物解决方案：通过AI2BMD高精度的分子动力学模拟有效区分正负样本小分子与主蛋白酶靶点之间的结合自由能，利用AIMD-Chig蛋白全构象数据集对ViSNet模型进行预训练，最终通过对预训练的ViSNet网络进行fine tuning，得到高准确度的预测结果。在一些基准上进行综合评估时，ViSNet 在 MD17 数据集上的所有分子上均优于所有最先进的算法，并且在 QM9 数据集上表现出优越的性能，表明分子几何表示的强大能力。表示节点i的1跳邻居节点集合，j是其邻居之一。

2023-09-15 10:58:52 654

原创 AI学习与面试问题汇总（深度学习）

Transformer的self attention为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？算法A具有更高的Accuracy，算法B具有更高的Recall（召回率），如何判断算法A和算法B哪个更好？准确率（accuracy）、精确率（precision）、召回率（recall），各自的定义，各自的缺陷。Transformer中，Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？强化学习的损失函数（loss function）是什么？

2023-09-09 15:05:19 82 1

原创 AI学习与面试问题汇总（机器学习）

搜集了一些关于机器学习的一些问题，可以应用于学习时的知识自检或者面试前的准备。为什么kmeans，GMM，EM满足上面描述的方式？聚类算法中，如何判断数据是否被“充分”地聚类，以便算法产生有意义的结果？kmeans有哪些不同的初始点选择策略，各自有什么缺陷？为什么会发生过拟合和欠拟合,怎么解决模型的过拟合和欠拟合的问题？比较随机森林和SVM，什么情况下优先使用随机森林（或svm）？平均绝对误差（MAE）与均方误差（MSE）有什么区别？dbscan和optics是怎么解决Kmeans的缺点的？

2023-09-09 14:57:48 65 1

原创怎样解释一个AI模型？

自人工智能技术兴起至今，AI已经逐渐深入各行各业，掀起一场场飓风，颇有一种新工业革命的趋势。然而作为舞台的主角，AI却有一个难言之隐——黑箱问题。这也是现阶段阻碍AI发展和引起争议的重要因素。解决这个问题的重要途径就是对AI模型进行解释。本文就怎样解释一个AI模型？这个问题进行简单的探讨。解释AI模型的重要性体现在它们能够为各个领域带来智能化、自动化、个性化以及高效的解决方案，从而推动社会和经济的进步和创新。同时也可以解决应用AI技术时可能的伦理、隐私和安全等问题，以确保其发展是可持续和负责

2023-09-01 15:23:17 405 1

原创综述：化学分子预训练模型的研究

使用预训练的方式一方面可以解决标注数据的问题，另一方面也可以使模型有更好的泛化能力，而且也能节省宝贵的算力资源。输入的分子描述符经过编码得到与之对应的分子向量，再经过解码还原至分子描述符，通过对比输入和输出的差异进行预训练。作者从四个角度(分子描述符，分子Encoders架构，预训练策略，应用领域)对它们进行了区分和详细的介绍，并举例了其中具有代表性的模型，详情如下图Figure 2所示。分子属性预测，与从头开始训练的模型相比，CPM 可以更好地外推到分布外的分子，这在预测新合成药物的特性时尤其重要。

2023-08-26 16:27:00 259

原创 WIN下使用 bitsandbytes 出现 CUDA Setup failed despite GPU being available.错误

今天玩一个开源项目时出现需要安装bitsandbytes 包，但是安装好后出现下面的报错。找了很多帖子，试了一些方法。

2023-08-07 14:28:56 3862 4

原创百度图像识别api调用

选择需要获取token的应用，点击调试。然后下拉到最下面，就可以获取access_token了。注册登入账号后，先点击左上角的三个杠——选择产品服务——人工智能图像识别。选择前面申请的服务，并为创建的应用取名和备注，最后创建应用。回到应用列表，选择点击创建的应用。然后把上面得到的api复制到对应位置就可以使用了。把获取的token复制到下面的代码就可以使用了。选择想要的服务功能。在点击左下角的免费领取。点击左边栏的应用列表，然后点击创建应用。先点击左边栏的api在线调试。选择免费尝鲜，领取免费额度。

2023-08-03 22:35:33 884

原创人工智能思维脑图

人工智能思维脑图，AI脑图

2023-07-07 21:38:43 74

原创 AI制药常见的公开数据集

AI制药常见的公开数据集

2023-07-06 22:37:14 1232

原创 Stable diffusion 训练lora出现报错

二：报错 ConnectionError:（‘Connection aborted.',ConnectionResetError(10054,‘远程主机强迫关闭了一个现有的连接。出现这样的问题有可能是因为V2.0版本不允许设置 LoRA文本编码器和Unet的LR不同，我的解决方式是换一个优化器。下载预训练的基础模型到本地，复制模型的地址到红色框内并把黄色框里的文件改为版本相应的。这个应该是项目的BUG，现在的版本还没修复，但是可以绕过它。今天使用kohya_ss训练lora时出现三个报错，下面是解决办法。

2023-07-05 18:50:53 2801 1

2303_79001442的博客