目录
什么是SMILES?
SMILES (Simplified Molecular Input Line Entry System) 是一种化学符号,使得使用者能用一种可以被计算机使用的方式表示化学结构。SMILES 是一种简单易学且灵活的符号(译者:= =)。SMILES 符号 有一些法则。无需担心模棱两可的表述,因为必要时软件会把输入排序为唯一的SMILES字符串。
SMILES 有五条必须遵守的基本句法规则。如果用户输入SMILES时没有遵守基本化学规则,系统会发出警告并要求用户编辑结构或重新输入。 比如,用户在一个原子上连接了太多键,SMILES警告会提示这个结构不可能存在。具体规则和一些实例如下。以下规则允许表示化学物质的二维结构。 对于 ASTER 系统,二维描述就足够了。 其他规则适用于结构异构体化学品,但本基础教程中不会讨论。
规则一:原子和化学键
SMILES 支持周期表内的所有元素。An atom is represented using its respective atomic symbol. 大写字母表示非芳香族原子,小写字母表示芳香族原子。如果原子符号有一个以上的字母,第二个字母必须是小写字母。
不同种类的键符号如下:
- 单键 = 双键 # 三键 * 芳香键 . 未连接的结构
默认原子间的连接为单键,不需要输入。例如,'CC' 表示一个非芳香族原子和另一个非芳香族碳原子以单键连接,计算机会识别这个结构为乙烷。两个小写字母表示的原子之间默认是以芳香键连接的。SMILES 字符串以空格结尾。
规则二:单链
结合使用原子符号和键符号可以表示单链结构。用 SMILES 符号输入的结构是 hydrogen-suppressed(氢抑制?的), 也就是说表示分子时省略氢原子。SMILES 软件懂得一个原子可能连接的键的数量。如果在SMILES中没有找到足够的键, 系统自动认为其他键与氢原子连接。
一些例子:
CC CH3CH3 Ethane C=C CH2CH2 Ethene CBr CH3Br Bromomethane C#N C=N Hydrocyanic acid Na.Cl NaCl Sodium chloride
用户可以明确识别碳氢键,但一旦有一个氢原子在SMILES字符串中被识别到,SMILES 编辑器(interpreter ? ) 会假定用户已经识别出该分子的所有氢。
HC(H)=C(H)(H) Ethene
因为 SMILES 允许输入元素周期表中的所有元素,并且还省略氢原子,应当注意用两个字母表示的原子可能被计算机错误解释。例如,'Sc' 可能被解释为一个硫原子通过单键连接到一个芳香族碳原子上,也可能是钪元素的符号。SMILES 解释器优先解释为连接硫原子和芳香碳的单键。 要识别钪,用户应输入 [Sc]。
规则三:分支
通过在括号()之间放置分支来指定链中的分支。 括号中的字符串 直接放置在与其连接的原子符号之后。 如果通过双键或三键连接,则键符号紧跟在左括号后面。例如:
CC(O)C 2-丙醇 CC(=O)C 2-丙酮 CC(CC)C 2-甲基丁烷 CC(C)CC(=O) 2-甲基丁醛 c1c(N(=O)=O)cccc1 Nitrobenzene CC(C)(C)CC 2,2-Dimethylbutane
规则四:环
SMILES 允许使用者通过数字来识别开环原子和闭环原子,从而识别环结构。比如,在C1CCCCC1中,第一个碳原子标有数字 ‘1’ ,它和最后一个碳原子(也标有数字 ‘1’ 的原子)以单键链接。所得结构是环己烷。有多个环的化合物可以用不同的数字标记每个环。
如果环闭合时用到(?)双键,三键或芳香键,要把键符号写在闭环碳原子的数字后。例如:
or C=1CCCCC1 Cyclohexene C*1*C*C*C*C*C1 c1ccccc1 Benzene C1OC1CC Ethyloxirane c1cc2ccccc2cc1 Naphthalene
规则五:带电原子
Charges on an atom can be used to override the knowledge regarding valence that is built into SMILES software.带电原子的表示格式,由原子后的大括号组成,括号内写原子电荷。电荷数量或许可以用 ({-1}) or not ({-})明确指出. 例如:
or CCC(=O)O{-1} Ionized form of propanoic acid CCC(=O)O{-} c1ccccn{+1}1CC(=O)O 1-Carboxylmethyl pyridinium