RDkit四:数据处理过程中smiles编码的清洗统一化

文章介绍了SMILES编码的唯一性与多样性,并通过RDKit展示虽然不同SMILES表示可能图形相同(如阿司匹林)。在数据清洗过程中,为避免同一分子多个编码问题,使用MolStandardize模块进行分子标准化。提供的Python脚本展示了如何统一SMILES编码,强调了isomericSmiles和canonical参数的作用。
摘要由CSDN通过智能技术生成

之前写过一篇博客介绍smiles编码,smart编码及摩根指纹(ECFP):

(1条消息) RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP)_随便叫点什么……的博客-CSDN博客

smiles编码具有唯一性:每个SMILES编码对应唯一一个化学结构,刚刚接触smiles编码的时候一定会有这样的疑问,为什么同一个化学分子smiles编码有多种表示形式:

c1cccc(c1OC(=O)C)C(O)=O
C(=O)(c1ccccc1OC(C)=O)O
c1c(c(OC(=O)C)ccc1)C(=O)O
c1(OC(C)=O)c(cccc1)C(O)=O
c1cc(c(C(O)=O)cc1)OC(C)=O
c1c(C(=O)O)c(OC(C)=O)ccc1
c1(c(cccc1)C(O)=O)OC(C)=O
c1cccc(C(=O)O)c1OC(=O)C
c1cccc(c1C(=O)O)OC(C)=O
c1cc(c(cc1)C(=O)O)OC(C)=O

当把上面的十个smiles编码作图时,发现得到的是一样的,都是阿司匹林

import rdkit
from rdkit import Chem
from rdkit.Chem import Draw

smiles = ['c1cccc(c1OC(=O)C)C(O)=O','C(=O)(c1ccccc1OC(C)=O)O','c1c(c(OC(=O)C)ccc1)C(=O)O','c1(OC(C)=O)c(cccc1)C(O)=O',
            'c1cc(c(C(O)=O)cc1)OC(C)=O'
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值