SMILES:化学结构的线性表示方法


SMILES是一种表征分子和反应的记法。比如

SMILESNameSMILESName
CCethane[OH3+]hydronium ion
O=C=Ocarbon dioxide[2H]O[2H]deuterium oxide
C#Nhydrogen cyanide[235U]uranium-235
CCN(CC)CCtriethylamineF/C=C/FE-difluoroethene
CC(=O)Oacetic acidF/C=C\FZ-difluoroethene
C1CCCCC1cyclohexaneN[C@@H]©C(=O)OL-alanine
c1ccccc1benzeneN[C@H]©C(=O)OD-alanine
Reaction SMILESName
[I-].[Na+].C=CCBr>>[Na+].[Br-].C=CCIdisplacement reaction
(C(=O)O).(OCC)>>(C(=O)OCC).(O)intermolecular esterification

[]表示一个整体,// /\ 表示烯烃的EZ异构,# 表示三键,表征核素在符号前面加数字,如[235U]。

SMILES的记法比connection table 更为简洁轻量,而且connection table的记法是唯一的,可以与分子结构建立一一对应。

connection table

规范化

SMILES把分子结构表示为图,可以表示出手性和同位素。

没有手性和同位素的称为generic SMILES,这样可能会出现很多可能的记法,用规范化算法,可把这些统一成unique SMILES。

有手性和同位素的成为isomeric SMILES。

Input SMILESUnique SMILES
OCCCCO
[CH3][CH2][OH]CCO
C-C-OCCO
C(O)CCCO
OC(=O)C(Br)(Cl)NNC(Cl)(Br)C(=O)O
ClC(Br)(N)C(=O)ONC(Cl)(Br)C(=O)O
O=C(O)C(N)(Br)ClNC(Cl)(Br)C(=O)O

规定

SMILES记法不能有空格,氢原子可以省略(hydrogen-suppressed graph)或保留(hydrogen-complete graph)。

下面叙述五条通用规定。

原子

所有原子(氢原子除外)独立地用方括号括起来,括号里面是元素符号,符号是两个字母的,第二个小写。有机子集(B, C, N, O, P, S, F, Cl, Br, and I)里面的元素,如果满足加上氢原子后满足价键规则(如C4 O2 卤1),那么[] 可以省略。

SMILES英文名全称
Cmethane(CH4)
Pphosphine(PH3)
Nammonia(NH3)
Shydrogen sulfide(H2S)
Owater(H2O)
Clhydrochloric acid(HCl)

不在有机子集里的元素以及加上氢后不满足价键规则的,就需要[] 了。

SMILES英文名
[S]elemental sulfur
[Au]elemental gold

[] 里面必须注明所有的H元素和电荷量

SMILES英文名
[H+]proton
[Fe+2]iron (II) cation
[OH-]hydroxyl anion
[Fe++]iron (II) cation
[OH3+]hydronium cation
[NH4+]ammonium cation

注意:[Fe++][Fe+2] 是同义的,电荷的“量”和氢原子的数目都标在电荷(+/-)和氢原子的后面。

单键、双键、三键、芳香键分别表征为-=#:,相邻的原子默认是用单键或芳香键连接,单键和芳香键总是可以省略。

SMILES英文名全称
CCethane(CH3CH3)
C=Oformaldehyde(CH2O)
C=Cethene(CH2=CH2)
O=C=Ocarbon dioxide(CO2)
COCdimethyl ether(CH3OCH3)
C#Nhydrogen cyanide(HCN)
CCOethanol(CH3CH2OH)
[H][H]molecular hydrogen(H2)

对于线性结构,SMILES与图解的记法是一样的,下面三种都是合法的6-hydroxy-1,4-hexadiene的记法。

StructureValid SMILES
C=CCC=CCO
CH2=CH-CH2-CH=CH-CH2-OHC=C-C-C=C-C-O
OCC=CCC=C

支链

支链用括号包裹,与有机化学里的命名类似。

环状结构

开环,然后在断键的两个原子后面分别加一个数字来标记,然后按照上文的方法来记录。

下面(a)和(b)对1-甲基-3-溴-1-环己烯的记法都是合法的。

如果某个原子在多于一个环里面,需要多次开环和标记原子(构造连通图的生成树)。

立方烷的generic SMILES:C12C3C4C1C5C4C3C25

断键原子的数字标记在不引起歧义时可重复使用。

对于超过一位的数字,需用% 分隔,如:C2%13%24

分离的结构

. 来分隔不相连的结构。对离子或配体的排列顺序没有要求,甚至可以嵌入到同一个圆括号里面。

这段有点没看懂,C1.C1CC 一样,是因为C 后面还跟了一个digit 1 吗?如果是C.C 是不是就不一样了?

Isomeric SMILES

用来表征同位素、双键的几何异构和手性。isomeric SMILES可以表示部分手性(partial chirality)。

同位素规定

在原子前面加上整数的原子质量,用 [] 包裹。

SMILESName
[12C]carbon-12
[13C]carbon-13
[C]carbon (unspecified mass)
[13CH4]C-13 methane

双键构型

用方向键 /\ 来表示双键的E/Z结构。
在这里插入图片描述

| ------------------------------------------------------------ | ------------------------------------------------------------ |
| F/C=C/F | F/C=C\F |
| F\C=C\F | F\C=C/F |

部分手性的例子

img[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eaXLvxaj-1656391334538)(https://www.daylight.com/dayhtml/doc/theory/theory12.gif)]
F/C=C/C=C/CF/C=C/C=CC
(completely specified)(partially specified)

四面体中心周围的构型

SMILES不是用有机里面的RS判别法来标记手性的,他看的是局部的手性。比如右边的分子,从N原子往C原子看,C -> F -> COOH 这个方向是逆时针的,用 @ 标记;F -> C -> COOH 这个方向是顺时针的,用 @@ 标记。

img[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EsG4MD2C-1656391334539)(https://www.daylight.com/dayhtml/doc/theory/theory14.gif)]
NC©(F)C(=O)ON[C@]©(F)C(=O)O
NC(F)©C(=O)ON[C@@](F)©C(=O)O
(unspecified chirality)(specified chirality)

如果C原子在SMILES中是第一个原子且有一个隐藏的H原子,那么H作为投影式的第一个(顺逆时针旋转的起始)原子;否则,如果中心C原子在SMILES中是第一个(是不是第一个没有看明白),那么就朝着H看投影四面体。H原子总是应该显式地用中括号包裹起来:[H]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IFLsWl2l-1656391334539)(https://www.daylight.com/dayhtml/doc/theory/theory15.gif)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WM1hQgka-1656391334539)(https://www.daylight.com/dayhtml/doc/theory/theory16.gif)]
N[C@@]([H])©C(=O)ON[C@]([H])©C(=O)O
N[C@@H]©C(=O)ON[C@H]©C(=O)O
N[C@H](C(=O)O)CN[C@@H](C(=O)O)C
[H][C@](N)©C(=O)O[H][C@@](N)©C(=O)O
[C@H](N)©C(=O)O[C@@H](N)©C(=O)O

下面这个也没看懂

The chiral order of the ring closure bond is implied by the lexical order that the ring closure digit appears on the chiral atom (not in the lexical order of the “substituent” atom).

img
C[C@H]1CCCCO1
or
O1CCCC[C@@H]1C

通用手性规定

有很多手性的情况,四面体只是其中一种。每个度(指手性原子的连接键数目)都有默认的手性类,4连接原子默认的手性类是四面体(TH)。

缩略1缩略2全称
@@1@TH1
@@@2@TH2
@@@@3@TH3

SMILES对下列手性类进行了规定

  • 四面体(TH),4连接
  • 平面正方形(SP),4连接
  • 三角双锥(TB),5连接
  • 八面体(OH),6连接

SMILES惯例

氢原子通常不写。具体而言,其存在可以用下面三种方式表示:

  1. 隐式地,没有 [],遵从价键规则的假定。
  2. 显式地,包裹在 [] ,提供氢原子的计数,不提供则表示无氢原子。
  3. 显式地,[H],可能是指单个氢原子不用标注 1

SMILES中对于有机和无机没有严格界限,丙烷可以是 CCC,也可以是 [CH3][CH3][CH3]

四种情况下氢必须显式标出:

  1. 带电荷,如质子[H+]

  2. 氢连到另一个氢,如氢分子 [H][H]

  3. 氢连的原子多于一个,如氢桥键(B2H6)。

  4. 氢的同位素,如重水 [2H]O[2H]

芳香性

可以用芳环表示(小写c),也可以用脂环(凯库勒式)表示(大写C ,单双键交替)。

SMILES算法使用休克尔规则的扩展版本来识别芳香分子、离子。如果输入的是有芳香性的脂环 C1=CC=CC=C1 , SMILES会自动转化为芳环 c1ccccc1。如果是反芳香性,比如输入芳环形式c1cccccc1 (环辛四烯),SMILES会自动转化为脂环 C1=CC=CC=CC=C1,以及环丁二烯。

芳香氮化合物

img[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oiQpK6YO-1656391334541)(https://www.daylight.com/dayhtml/doc/theory/theory24.gif)]img
n1ccccc1O=n1ccccc1 [O-][n+]1ccccc1Cn1cccc1 [nH]1cccc1
PyridinePyridine-N-oxideMethyl and 1H-pyrrole

键合规则

键可以连接,也可以异裂后使两端原子带电荷。如硝基甲烷可以写作 CN(=O)=O ,也可以写作 C[N+](=O)[O-]。但是如果对称性没有要求的话,最好还是满足价键规则,比如重氮甲烷最好写成 C=[N+]=[N-],而不是 C=[N]=[N] (这边N用 [] 包裹表示没有氢原子)。

互变异构体

SMILES里面没有“互变异构键”、“移动氢”、“移动电子”的说法,选择何种互变异构体由用户决定。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJaswuL9-1656391334542)(https://www.daylight.com/dayhtml/doc/theory/theory26.gif)]
O=c1[nH]cccc1 Oc1ncccc1
2-pyridone 2-pyridinol

针对反应的扩展

引进 > 来分隔反应的各组分,一个反应中必须恰有两个 > 符号。>> 也是一个合法的反应表示空反应。此外,分子中不能含有 > ,以免歧义。

语法
  • 有试剂的:reactant '>' agent '>' product
  • 无试剂的:reactant '>>' product

>(red)

例如

C=CCBr>>C=CCI:合法。注意没有试剂分子,也有一些反应物和产物缺失了(产物Br和反应物I)。

[I-].[Na+].C=CCBr>>[Na+].[Br-].C=CCI:合法。有完整的反应物和产物。

C=CCBr.[Na+].[I-]>CC(=O)C>C=CCI.[Na+].[Br-]:合法。有丙酮作为试剂。注意SMILES不区分试剂、催化剂或者是有别的功能的试剂。

reaction atom maps

以上的方法不能展示反应机理。因此考虑原子图(atom maps)。

>(red)

atom map是参与反应的分子的原子的某种属性,把反应物一侧和产物一侧不同的原子分门别类,用数字进行标记,在数字和原子之间用 : 分隔,包裹在 [] 中。

对于等价的原子,atom map把他们分成同一类,如醋酸根的两个氧是等价的,[CH3:1][C:2](=[O:3])[O-:3]

[CH2:1]=[CH:2][CH2:1][CH2:3][C:4]©[CH2:3]

涉及氢迁移的话,氢也是特殊的,需要用atom maps,H不能省略。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值