分子描述符和分子相似性
分子描述符
数字化的产物,数值指标
比如性别 必须要用1代表男,2代表女
分子结构不是数值也不是数值的集合 分子结构必须要变换成数字的形式才是分子描述符
一、按种类分类:定量描述符和定性描述符
唯一的一种定性描述符是分子指纹:是对分子的结构性质分子片段或子结构信息使用某种编码进行表示 有很多分子指纹
除了分子指纹全部是定性描述符
二、数据类型:
布尔值、整数、实数、向量、标量场、向量场、张量
所有的物理量都可以转化成张量
三、按照需要的分子结构维数分类:
一维(化学式)
二维(苯环的数量,通过化学式得不到,几个氢键的受体)
三维(分子的表面积 因为需要知道每一个原子的坐标)、
四、按照物理意义分类
只是列举、还有很多
A 组成描述符
表示分子组成或相对组成数量
必不可少,单独使用不行,需要和更复杂的描述符结合到一起使用
B 拓扑描述符
通常是二维的分子描述符
Wiener指数:距离矩阵 计算机存储 行和列分别代表5个原子 2号原子和三号原子通过一个化学键链接 1和4之间是通过三个化学键链接
另外一半是对称的 维纳指数看起来比较奇怪 物理意义不明确
具体怎么用没考虑
C 亲脂性、亲水性描述符
油水分配剂
正辛醇
化合物在油相和水相之中都会有溶解,测量浓度去对数得到油水分离系数
亲脂性/疏水性的大小 logP的大小来反应
常见的logP 计算方法
除了实验以外还有很多
其他的亲脂性亲水性描述符
LogS
LogD
难度更大一些
D 几何描述符
根据分子的性状计算出来
转动惯量
回旋半径
分子表面积
范德华表面积
溶剂及可及表面积
探针分子球心形成的表面积
溶剂排除表面积
探针分子球面形成的表面积
Es立体参数 表示立体效应 两个反应速率的差值
取代基如果越大 空间位阻越大 越难形成中间产物 反应速率越慢 得到的Es值负值越大
E 电性描述符
F 热力学参数
G 构象描述符
H 量子化学描述符
有热力学参数 生成热
I 分子场参数
探针和分子相互作用
标量场 每一个点有一个标量值
J 受体相互作用描述符
K
L
分子描述符计算软件
Dragon软件可以计算5270+描述符
优秀的分子描述符的要求:
优秀的分子描述符要求
分子描述符和分子的取向,空间坐标无关
定量构效关系
分子相似性
如何定义相似
使用不同的指标可以得到不同相似性
定义:两个分子在结构或性质上相似的程度
要先给出指标和算法。
结构上的相似性
两个结构之间是否相同?
在电脑上存储分子结构用数据结构来存储。计算机中用图这个数据结构,
原子之间可能有多条边相连 距离不重要 重要的是连接(拓扑)关系。
图的同构问题是没有好的算法的,算法复杂度非常高,原子越多,所需要的时间呈指数增加。
子结构搜索
转化成计算机问题 子图的同构
算法复杂度非常大 也是非常耗时 np问题
基于回溯算法
分子相似性 醛类化合物 如何比较结构?
①按骨架结构来分
②按官能团来分
如何定义分子相似性?
“最大公共子结构” 要先找到这两个结构当中最大的公共子结构.相似性定量化比较大小,
Similarity=最大公共子结构化学键数量比上除了
也可以用原子的数量 除总共原子数量
几种方法都不太高效 使用分子描述符
分子描述符分类 定量定性
定性分子描述符 分子指纹
分子指纹:是把分子的结构,性质,分子片断或子结构信息使用某种编码表示
Fingerprint
定义很小的结构片段 计算分子指纹很快 分支指纹可定义20种结构片段 是否含有 每一个结构片段对应一个二进制位
这是一个有歧义的representation 不同的分子机构化学官能团是一样的 分子指纹就是一样的
不适合用于存储分子结构,非常利于分子标记和分子搜索。
有很多种分子指纹 eg:MACCS 有166个keys
是否少于三个氧分子
是否有二硫键?
是否有四元环?
是否还少有一个F Cl Br I?
基于分子指纹的子结构搜索初筛。一个查询分子查找真个库。一个查询分子定义了一个分子指纹,每一个二进制位看是不是有,有的话就是1,没有的是0
算出来了分子指纹 同样一种来计算两个化合物是
几百个化合物都可以得出分子指纹
查询分子中有一部分不一样 那么B就被筛掉了
分子指纹
相似性不用最大公约子结构了,直接计算分子相似性。
Tamimoto coefficient谷本系数(Tc)=a/(a+b+c)
有三个二进制位是一样的,看独有的结构有多少?
知道了共有的也知道了独有的二进制位。
用共有的二进制位/共有二进制位+独有的二进制位
计算出来是0和1之间的 且与最大公共子结构的值算出来相似
每年必考题目:
首先比较 图形 按照颜色来判断
考试会给二进制来判断 蓝色是1 白色是0 分【必考】
A独有2 B独有2 A、B相等2
共有二进制位数量2/所有的 答案是1/3 我们一般会给除尽的数
相似性搜索
Tanimoto系数 定义一个阈值60%希望找出化合物中和它相似性是0.6以上的分子
计算出相似性系数是100%说明这两个分子是一样的吗?
不一定,有歧义,只能说明分子指纹一样,但是分子指纹是有歧义的。
三维相似性:药效团
是某一些基团 是我们自己定义的 比如氢键供体可以定义成药效团 氢键受体定义成药效团 芳香集团 疏水基团
可以定义四种药效团 三个球心作为空间点 计算距离 接下来找分子是否相似?
1.看药效团是否相似
2.比较相同药效团之间距离
相同 认为三维空间相同
比较接近认为 三维结构相似
应用于药物设计领域 因为有的药效团就是发挥作用的
忽略了非药效团的结构
相似性原理
为什么要做相似性搜索呢?
基于相似性原理:结构相似的分子往往具有相似的生物活性
基于相似性的虚拟筛选
基于受体的药物设计和基于配体的药物设计是不一样的 3D-QSAR是基于配体的 相似性搜索也是基于配体的 可以完全不知道受体的结构就进行虚拟筛选。
药效团的设计就是为了做基于配体的药物设计的。
如果用相似性搜索进行虚拟筛选,相对于分子对接而言算分子指纹是非常快的。
实际上基于相似性搜索计算虚拟筛选用的并不多。原因是这是基于相似性原理的,相似性原理对不对?
下面的图Z轴表示药效,xy表示结构 整个是构效关系图
如果是第一幅图的话相似性搜索是适用的,因为比较平坦,结构稍微变化药效相似。
但是图2 有些地方非常陡峭,这样一种化合物,对结构进行很小改变,从山顶直接到悬崖了。(活性悬崖)
如果存在活性悬崖就不适用了,相似性原理不是在所有的地方都适用。
只是做了一点改变,亲和力直线下降。说明存在活性悬崖。
基于分子性质的相似性
之前都是基于结构 我们的比较相似性有很多指标与算法
同样除了结构相似性外还有性质上的相似性 很多化合物物化性质
其实这些性质都是分子描述符 可以转化成利用分子描述符(定量分子指纹)来比较相似性。
利用分子描述符。利用多个分子描述符进行比较。
某一个描述符当做空间的一个坐标轴。分子描述符被转化为多维空间当中的一个向量。计算点与点之间距离。可以用来表征分子之间相似性。是分子相似性的另外一种定义形式。距离近相似程度高,距离远相似程度低。
什么是空间当中的距离?
欧氏距离【必考】
每次都有人算错
曼哈顿距离 曼哈顿【必考】
是这两个点每一个坐标值差值的绝对值加和
化合物文库的设计:多样性
自己设计文库 不需要一整个化合物数据库 自己设计一个子库
化合物之间有太多重叠 说明化合物之间有冗余 不太竞技
还发现存在空白比较多 也就是子文库不能完全覆盖化学结构数据库整个化合物空间↓
一个比较好的文库 我们希望有限数量化合物完全代表整个化学结构数据库
没有冗余和空白
需要利用一个与相似性完全相反的概念 结构多样性
空间中有了点 有了定义 可以做聚类 找到类中具有代表性的化合物 就可以作为文库了
可以算不同分子之间距离 距离越大 相似性越小 谷本系数是正相关的 越大相似性越大
两大类方法 一个算系数 一个算距离 化合物筛选用相似性系数
设计文库的时候用距离 因为要分类
相似性计算软件:
分子相似性应用领域: