分子描述符和分子相似性

分子描述符

数字化的产物,数值指标
比如性别 必须要用1代表男,2代表女
分子结构不是数值也不是数值的集合 分子结构必须要变换成数字的形式才是分子描述符

一、按种类分类:定量描述符和定性描述符

     唯一的一种定性描述符是分子指纹:是对分子的结构性质分子片段或子结构信息使用某种编码进行表示 有很多分子指纹
     除了分子指纹全部是定性描述符

二、数据类型:

     布尔值、整数、实数、向量、标量场、向量场、张量
所有的物理量都可以转化成张量

三、按照需要的分子结构维数分类:

     一维(化学式)
     二维(苯环的数量,通过化学式得不到,几个氢键的受体)
     三维(分子的表面积 因为需要知道每一个原子的坐标)、

四、按照物理意义分类

只是列举、还有很多

A 组成描述符

表示分子组成或相对组成数量
必不可少,单独使用不行,需要和更复杂的描述符结合到一起使用

B 拓扑描述符

通常是二维的分子描述符
Wiener指数:距离矩阵 计算机存储 行和列分别代表5个原子 2号原子和三号原子通过一个化学键链接 1和4之间是通过三个化学键链接
在这里插入图片描述
另外一半是对称的 维纳指数看起来比较奇怪 物理意义不明确
具体怎么用没考虑

C 亲脂性、亲水性描述符

油水分配剂
在这里插入图片描述

正辛醇
化合物在油相和水相之中都会有溶解,测量浓度去对数得到油水分离系数
亲脂性/疏水性的大小 logP的大小来反应

常见的logP 计算方法

除了实验以外还有很多

其他的亲脂性亲水性描述符

LogS
LogD
难度更大一些

D 几何描述符

     根据分子的性状计算出来
     转动惯量
     回旋半径
     分子表面积
          范德华表面积
          溶剂及可及表面积
               探针分子球心形成的表面积
          溶剂排除表面积
               探针分子球面形成的表面积
Es立体参数       表示立体效应 两个反应速率的差值
取代基如果越大 空间位阻越大 越难形成中间产物 反应速率越慢 得到的Es值负值越大
在这里插入图片描述

E 电性描述符

F 热力学参数

G 构象描述符

H 量子化学描述符

有热力学参数 生成热

I 分子场参数

探针和分子相互作用
标量场 每一个点有一个标量值

J 受体相互作用描述符

K

L

分子描述符计算软件
Dragon软件可以计算5270+描述符
优秀的分子描述符的要求:
在这里插入图片描述

优秀的分子描述符要求

分子描述符和分子的取向,空间坐标无关

定量构效关系

分子相似性

如何定义相似

使用不同的指标可以得到不同相似性
定义:两个分子在结构或性质上相似的程度
    要先给出指标和算法。

结构上的相似性

两个结构之间是否相同?
在电脑上存储分子结构用数据结构来存储。计算机中用图这个数据结构,
在这里插入图片描述原子之间可能有多条边相连 距离不重要 重要的是连接(拓扑)关系。
图的同构问题是没有好的算法的,算法复杂度非常高,原子越多,所需要的时间呈指数增加。

子结构搜索

转化成计算机问题 子图的同构
算法复杂度非常大 也是非常耗时 np问题
基于回溯算法
分子相似性 醛类化合物 如何比较结构?
①按骨架结构来分
②按官能团来分
如何定义分子相似性?
“最大公共子结构” 要先找到这两个结构当中最大的公共子结构.相似性定量化比较大小,
Similarity=最大公共子结构化学键数量比上除了
也可以用原子的数量 除总共原子数量

几种方法都不太高效 使用分子描述符

分子描述符分类 定量定性

定性分子描述符 分子指纹
分子指纹:是把分子的结构,性质,分子片断或子结构信息使用某种编码表示
Fingerprint
定义很小的结构片段 计算分子指纹很快 分支指纹可定义20种结构片段 是否含有 每一个结构片段对应一个二进制位
这是一个有歧义的representation 不同的分子机构化学官能团是一样的 分子指纹就是一样的
不适合用于存储分子结构,非常利于分子标记和分子搜索。
有很多种分子指纹 eg:MACCS 有166个keys
是否少于三个氧分子
是否有二硫键?
是否有四元环?
是否还少有一个F Cl Br I?
基于分子指纹的子结构搜索初筛。一个查询分子查找真个库。一个查询分子定义了一个分子指纹,每一个二进制位看是不是有,有的话就是1,没有的是0

算出来了分子指纹 同样一种来计算两个化合物是
几百个化合物都可以得出分子指纹
查询分子中有一部分不一样 那么B就被筛掉了

分子指纹

相似性不用最大公约子结构了,直接计算分子相似性。
Tamimoto coefficient谷本系数(Tc)=a/(a+b+c)
有三个二进制位是一样的,看独有的结构有多少?
知道了共有的也知道了独有的二进制位。
用共有的二进制位/共有二进制位+独有的二进制位
计算出来是0和1之间的 且与最大公共子结构的值算出来相似
每年必考题目:
首先比较 图形 按照颜色来判断
考试会给二进制来判断 蓝色是1 白色是0 分【必考】
A独有2 B独有2 A、B相等2
共有二进制位数量2/所有的 答案是1/3 我们一般会给除尽的数
在这里插入图片描述
相似性搜索
Tanimoto系数 定义一个阈值60%希望找出化合物中和它相似性是0.6以上的分子
计算出相似性系数是100%说明这两个分子是一样的吗?
不一定,有歧义,只能说明分子指纹一样,但是分子指纹是有歧义的。

三维相似性:药效团

是某一些基团 是我们自己定义的 比如氢键供体可以定义成药效团 氢键受体定义成药效团 芳香集团 疏水基团
可以定义四种药效团 三个球心作为空间点 计算距离 接下来找分子是否相似?
1.看药效团是否相似
2.比较相同药效团之间距离
相同 认为三维空间相同
比较接近认为 三维结构相似
应用于药物设计领域 因为有的药效团就是发挥作用的
忽略了非药效团的结构

相似性原理

为什么要做相似性搜索呢?
基于相似性原理:结构相似的分子往往具有相似的生物活性
基于相似性的虚拟筛选
基于受体的药物设计和基于配体的药物设计是不一样的 3D-QSAR是基于配体的 相似性搜索也是基于配体的 可以完全不知道受体的结构就进行虚拟筛选。
药效团的设计就是为了做基于配体的药物设计的。
如果用相似性搜索进行虚拟筛选,相对于分子对接而言算分子指纹是非常快的。
实际上基于相似性搜索计算虚拟筛选用的并不多。原因是这是基于相似性原理的,相似性原理对不对?
下面的图Z轴表示药效,xy表示结构 整个是构效关系图
如果是第一幅图的话相似性搜索是适用的,因为比较平坦,结构稍微变化药效相似。
但是图2 有些地方非常陡峭,这样一种化合物,对结构进行很小改变,从山顶直接到悬崖了。(活性悬崖)
如果存在活性悬崖就不适用了,相似性原理不是在所有的地方都适用。
在这里插入图片描述只是做了一点改变,亲和力直线下降。说明存在活性悬崖。

基于分子性质的相似性

之前都是基于结构 我们的比较相似性有很多指标与算法
同样除了结构相似性外还有性质上的相似性 很多化合物物化性质
其实这些性质都是分子描述符 可以转化成利用分子描述符(定量分子指纹)来比较相似性。
利用分子描述符。利用多个分子描述符进行比较。
某一个描述符当做空间的一个坐标轴。分子描述符被转化为多维空间当中的一个向量。计算点与点之间距离。可以用来表征分子之间相似性。是分子相似性的另外一种定义形式。距离近相似程度高,距离远相似程度低。

在这里插入图片描述什么是空间当中的距离?
欧氏距离【必考】
每次都有人算错
曼哈顿距离 曼哈顿【必考】
是这两个点每一个坐标值差值的绝对值加和

化合物文库的设计:多样性
自己设计文库 不需要一整个化合物数据库 自己设计一个子库
化合物之间有太多重叠 说明化合物之间有冗余 不太竞技
还发现存在空白比较多 也就是子文库不能完全覆盖化学结构数据库整个化合物空间↓
在这里插入图片描述
一个比较好的文库 我们希望有限数量化合物完全代表整个化学结构数据库
没有冗余和空白
需要利用一个与相似性完全相反的概念 结构多样性
空间中有了点 有了定义 可以做聚类 找到类中具有代表性的化合物 就可以作为文库了
在这里插入图片描述可以算不同分子之间距离 距离越大 相似性越小 谷本系数是正相关的 越大相似性越大
两大类方法 一个算系数 一个算距离 化合物筛选用相似性系数
设计文库的时候用距离 因为要分类
在这里插入图片描述相似性计算软件:
分子相似性应用领域:
在这里插入图片描述

  • 5
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值