RDkit四：数据处理过程中smiles编码的清洗统一化

随便叫点什么……

已于 2023-03-01 14:28:32 修改

阅读量5.6k

点赞数 7

分类专栏： RDkit 文章标签：数据挖掘人工智能

于 2023-02-28 13:33:58 首次发布

本文链接：https://blog.csdn.net/gongfuxiongmao_/article/details/129235781

版权

文章介绍了SMILES编码的唯一性与多样性，并通过RDKit展示虽然不同SMILES表示可能图形相同（如阿司匹林）。在数据清洗过程中，为避免同一分子多个编码问题，使用MolStandardize模块进行分子标准化。提供的Python脚本展示了如何统一SMILES编码，强调了isomericSmiles和canonical参数的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前写过一篇博客介绍smiles编码，smart编码及摩根指纹(ECFP)：

(1条消息) RDkit：介绍smiles编码，smart编码及摩根指纹(ECFP)_随便叫点什么……的博客-CSDN博客

smiles编码具有唯一性：每个SMILES编码对应唯一一个化学结构，刚刚接触smiles编码的时候一定会有这样的疑问，为什么同一个化学分子smiles编码有多种表示形式：

c1cccc(c1OC(=O)C)C(O)=O
C(=O)(c1ccccc1OC(C)=O)O
c1c(c(OC(=O)C)ccc1)C(=O)O
c1(OC(C)=O)c(cccc1)C(O)=O
c1cc(c(C(O)=O)cc1)OC(C)=O
c1c(C(=O)O)c(OC(C)=O)ccc1
c1(c(cccc1)C(O)=O)OC(C)=O
c1cccc(C(=O)O)c1OC(=O)C
c1cccc(c1C(=O)O)OC(C)=O
c1cc(c(cc1)C(=O)O)OC(C)=O

当把上面的十个smiles编码作图时，发现得到的是一样的，都是阿司匹林

import rdkit
from rdkit import Chem
from rdkit.Chem import Draw

smiles = ['c1cccc(c1OC(=O)C)C(O)=O','C(=O)(c1ccccc1OC(C)=O)O','c1c(c(OC(=O)C)ccc1)C(=O)O','c1(OC(C)=O)c(cccc1)C(O)=O',
            'c1cc(c(C(O)=O)cc1)OC(C)=O'

最低0.47元/天解锁文章