SMILES的基本规则
- SMILES符号由一连串不间断的字母组成,采用纵向优先遍历树算法将化学结构进行转化。
在SMILES基本规则中,氢原子忽略不计,芳环结构采用链打开的方式或直接由凯库(Kekule) 形式表达。表达时,拆分键端的原子要用数字标记,支链写在小括号里。 - SMILES编码的五个要素分别为原子、化学键、支链、闭环和未连接结构。
- 化学物的同分异构体遵循同分异构体(isomeric)SMILES编码规则。
SMILES(简化分子线性输入系统)编码的基本原则
原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。
相邻原子依次排放在一起,单键通常省略,双键和三键分别以“=”和“#”表示,芳香键以“:“表示,也可省略。
分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。
双键“/”表示顺式,“\”表示反式。
原子顺时针排列用@表示,逆时针排列用@@表示。
二维结构表示
图论基础和图的矩阵表示
一个简单的图由顶点
V
V
V和边
E
E
E组成,因此图被定义为一个三元组<,E9>,9为映射函数。在下面一个简单的无向图中,
{
1
,
2
,
3
,
4
}
\{1, 2, 3, 4\}
{1,2,3,4},
E
=
{
e
1
,
e
2
,
e
3
,
e
4
,
e
5
,
e
6
}
E=\{e_1,e_2,e_3,e_4,e_5,e_6\}
E={e1,e2,e3,e4,e5,e6}
原子的SMILES表达
在SMILES表达式中,原子由相应的元素符号表示,即使用相应的英文字母;化学物的氢原子被省略;其他原子由相应的元素符号加中括号[]表达。由两个字母组成的原子,其元素符号的第二个英文字母要小写,如Cl、Br。当化学键明确且元素处于最低正常价态时,化学物可直接表达为元素符号,如B、C、N、O、P、S、F、CI、Br和I,不用加中括号。芳香环类物质用小写字母c表达,而脂肪族用大写C表达。
离子的SMILES表达
当元素的化合价高于最低正常价态,或存在于无机化学物中时,元素要加中括号表达。例如,元素硫[S]、元素金[Au]。与原子相连接的氢离子或其他任何离子都应被注明。连接的氢数量应采用字母H加数字来表达。正常电荷数的离子可采用元素符号加“+”或“-”加数量来表达,也可以直接采用多个“+”或“-”
表示出所有电荷,如[Fe+3]与[Fe+++]是等效的表达。对于在中括号内的元素,如果没有标明电荷数,就认定电荷为零。
化学键的SMILES表达
在SMILES编码规则中,单键、双键、三键和芳香族的离域键分别可由“-“=”“#”和”:”符号来表达。
相邻的原子由单键或芳香族的离域键连接时,通常无须符号表示。对于线性结构的物质,SMILES基于常规图解方法,并省略氢原子和单键。
例如,6-羟基-1,4-己二烯(H2C=CHCH2-CH=CH-CH2-OH)可采用三种等效的SMILES表达,分别为C=CCC=CCO、C=C-C-C=C-C-0、OCC=CCC=C。
含支链化学物的SMILES表达
支链应该写在括号()内,并表达在所连接的主链原子之后。
环状结构的SMILES表达
SMILES表达中,环状结构需断开一个化学键来表述分子结构。连接键可按任意顺序标注,键断裂处的原子后用阿拉伯数字1、2、3等标注。这里的数字只是用来标注闭环结构及闭环的数量。断裂后的环状化学物按上述线性化学物的三大原则进行表述。环己烷就是典型的例子,其SMILES表达为C1CCCCC1。
同一个化学物也可由多个不同的等效的SMILES表达式进行表述。
例如,1-甲基-3-溴-环己烯可以用CC1=CC(Br)CCC1与CC1=CCCCC1)Br两种等效的SMILES表达式来表达。
未连接结构的SMILES表达
未连接结构化学物采用点符号“”来隔开每个单独的结构。离子或配体可按任意的顺序标注出。一个电荷无须与另一个电荷组成配体,化学物也无须净电荷为零。有时,SMILES可表达一个离子包含于另一个离子化学物中。
双键构型的SMILES表达
双键周围的构形可用符号“/”和“八”来表达单键或芳香键的方向。当原子间存在双键时,
“/”和“八”表明原子间连接的相对方向。E-1,2-二氟乙烯和Z-1,2-二氟乙烯的SMILES表达式如下图所示。
四面体构型的SMILES表达
SMILES能接受任意的原子排列顺序,当分子结构发生改变或重组时,仍能保留手性分子的特征。四面体是最常见、最简单的手性结构。四个相邻的原子围绕着同一个原子排列,该原子为“手性中心”。如果四个相邻的原子互不相同,那么其镜像结构是不同的,两个相对应的镜像体作为手性中心的两个异构体。SMILES规则中,四面体中心采用元素符号加“@” 或“@@”来简化手性说明。如果手性中心未作说明,那么手性分子的手性结构是未明确的
如图中左边的SMILES表达式N[C@](C)(F)C(=O)O(即依次为氨基、中心碳、甲基、氟、羧基基团),
SMILES中其他规则
(1)氢的规则
通常情况下,有机物结构中的氢原子无须被标注出来。氢包括三种表达方式:1)氢原子以普通单键相连,处于正常的化学价态时,无须标注氢原子;2)中括号中的氢原子,并加数字表明氢的数量;3)[]指氢原子。
例如:
丙烷可输入为[CH3][CH2][CH3]或CCC(采用SMILES简化表达式CCC常见)以下四种情况,氢需要明确的说明:
1)带电荷的氢,如一个质子[H+]
2)氢原子与氢原子相连接,如氢气分子[H][H]
4)同位素氢原子,如重水[2H]O[2H]。
(2)芳香族化学物的规则:
基于分子对称性特征,SMILES能推导出芳香族结构的明确化学命名法则。如果使用者更偏爱脂肪族的凯库勒结构,那么在表达芳香族有效结构时可以不输入芳香族结构。芳香族结构也可以直接采用小写字母的原子符号来表达,如n指芳香族氮化合物的氮原子,这样能简化明确的化学结构说明,也更接近于分子模型的真实结构。
(3)化合价的规则
SMILES使用分子结构模型时不对化合价做明确定义,这也是SMILES的一大优势,针对一个分子结构模型,SMILES能描述出不同的化合价。例如,硝基甲烷可表达为CN(=O)=O或者带电表达式CIN+](=O)[O-]。两种表达方式都是正确的,但我们更倾向于采用后一种表达方式,因为当分子呈非对称结构时,采用电荷分离结构表达能避免原子处于非正常化合价态时引起的歧义。例如,重氮甲烷表达为C=[N=]=[N-]时优于用C=[N]=[]表达。
(4)分子存储格式及其相互转换
(一)化学搜索引擎
1、大型通用搜索引擎:Google、百度等。
2、专门用于搜索化学信息的引擎:ChemFinder,MetaXchem…I
(二)互联网上的化学数据库
1、文献数据库(CA、Medline)
2、化合物数据库(Gmelin,CSD)
3、综合数据库(Beilstein、PDB)
常用化合物数据库
◆FCD(Fine Chemicals Directory)——MDL维护。收载约90000化合物和20000化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、CAS登录号、纯度等。可通过结构式或其它任何数据检索
◆ACD(Available Chemicals Directory)—-MDL维护。FCD数据库加上可大批量供货的化学品信息。目前有25万个化合物
◆CSD(Cambridge Structure Database)——20多万个结晶的3D结构实验数据及相关数据
MDL药物数据报告(MDDR)含有115000个类药性化合物。
美国国家癌症研究所(NCI)数据库含有250000个化合物。
常用数据库的网址