表达一个化学物质,通常使用的方法有

本文来自丁祥欢科学网博客
链接地址:http://blog.sciencenet.cn/blog-1213210-1252335.html

1)化学名称,无论是中文名还是英文名,这是使用极其广泛的手段,但是这种手段有个非常大的弱点,虽然比较直观,但是唯一性非常不好。同样一个东西,可能有很多个名字。比如 水可以用Water,也可以用Hydrogen oxide. EMC可以叫碳酸甲基乙基酯,也可以叫碳酸乙基甲基酯,还可以叫碳酸甲乙酯,甲基乙基碳酸酯。 名称还有俗名,商品名,简单命名,甚至还有IUPAC标准命名等等,即使同是简单的命名,有的化合物有多个官能团,从不同分类出发可以得到不同的命名。因此,同一种物质有多个个合法的名称是非常常见的。因此需要严谨表达结构时,化学名称不是理想的选择。
2)CAS号。 CAS号是化学文摘社为化学物质编制的特定顺序编号,理论上每个化学物质有其唯一的特定编号,除非未被CAS收录或编制。由于化学文摘的功能强大,影响力大,加上CAS号短小精悍,易于书写(只有不到十几位数字两根短划线)CAS也就成为了表示化学物质的事实标准。很多化学数据库都收录了化学物质的CAS号。为了传递某种化学物质的信息,也常常借助于CAS号。CAS号虽然使用广泛,但它有两个不足: 1.CAS号与它代表的物质在结构上没有关系。根据CAS要得到其结构,还必须到数据库中进行查询。2. 化学文摘社并没有向社会免费开放它的CAS号检索功能,对一些较新的物质,其CAS号并不能自由地使用,它是有版权的。
3)化学结构式。这个倒是比较准确,但是依赖于绘制结构式的软件。如果结构式从专用的化学软件导出成为图片,它就失去了结构式贮存的化学意义,无法做化学上的进一步利用。这种信息需要以文件的形式来传递,如果用文本来表示就比较困难了。
4)SMILES。用比较简短的文本来表示分子的结构,算是比较理想的表达方式,得到了比较广泛的应用。但是SMILES的算法不是自由免费的,日光化学公司对其拥有版权。所以目前还出现了一个叫OpenSmiles的规范。
5)特定格式的化学结构式文件,如CDXML格式,CDX格式,cml格式,MOL格式,SKC格式等等,这些格式种类较多,本质上不过是第3)项的存储而已,优点/缺点基本相同。其中MOL格式比较常用,很多网上的化学软件都支持。

inchi:

国际化合物标识分为六个层,每个层之间以"/“分隔,并在开头以一个小写字母标明层的性质:
主层(main layer):以"1"表示
电荷层(charge layer):以"q"表示
立体化学层(Stereochemical layer):以"t”,“m”,"s"表示
异构体层(Isotopic layer):以"i"表示
固定氢原子(Fixed-H layer):以"f"表示
再连接层(Reconnected Layer):以"r"表示
其中主层是必不可少的,其他的层是可以省略的。

kaggle比赛一个人分析的inchi层结构

InChI的第一主要层是指该核心母体结构,提供其化学式,无键序的无氢连通性(/ c子层)和氢连通性(/ h子层)。电荷层的/ q部分 给出电荷,电荷层的/ p部分表明必须添加或除去多少个质子(氢离子)才能再生原始结构。 如果存在,则具有子层/ b,/ t,/ m和/ s的立体化学层提供立体化学信息,以及同位素层/ i(可能包含/ h,/ b,/ t,/ m和/ s子层 )给出同位素信息。 这些是标准InChI中可能出现的唯一层。[5]

如果用户想指定一个精确的互变异构体,可以附加一个固定的氢层/ f,其中可能包含各种其他子层; 但是,这不能在标准InChI中完成,因此不同的互变异构体将具有相同的标准InChI(例如,无论是以中性还是两性离子形式输入,丙氨酸都将提供相同的标准InChI。)最后,可以使用非标准的重新连接/ r层 添加,可以有效地产生新的InChI,而不会破坏与金属原子的键。 它可能包含多个子层,包括/f。[5]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值