QSAR(Quantitative Structure-Activity Relationship)也被称为定量构效关系,这是目前生物化学领域常用的一个计算模式,在了解QSAR前,先了解SAR(Structure-Activity Relationship);
SAR为构效关系,指的是分子的结构和性质之间的关系。即相似结构的分子具有相似的性质,可以找到一个映射关系: f SAR : S t r u c t u r e → A c t i v i t y f_{\textbf{SAR}}:Structure\rightarrow Activity fSAR:Structure→Activity下面举个例子,我们想要设计一个新的头痛药,我们首先会收集与头痛相关的药物,研究它们在分子结构上的特征,然后我们得到大量药物分子的结构数据,构成集合 S t r u c t u r e Structure Structure,这其中有些能够治疗头痛,有的不能,我们使用 y = 1 y=1 y=1标记能治疗头痛的药, y = 0 y=0 y=0标记不能治疗头痛的药,这些标记组成 A c t i v i t y Activity Activity,我们的目标就是找到一个合适的映射关系 f SAR f_{\textbf{SAR}} fSAR;
QSAR相比SAR,使用了定量的方法确定 f SAR f_{\textbf{SAR}} fSAR;
由于机器学习快速发展,现在主要流行使用机器学习模型拟合映射关系,比如支持向量机,神经网络;
所以目前QSAR的基本做法如下:
- 收集有代表性的药物分子结构,并对每个分子标记是否具有治疗头痛的功能,构成训练集;
- 用机器学习模型拟合训练集,这个模型的功能是:给定一个分子结构,判断它能否治疗头痛;
- 用这个模型预测不在数据集中,但我们感兴趣的药物分子,判断它能不能治疗头痛。
可见,QSAR研究基于生物活性变化与一组化合物中的结构和分子变化相关联,从相关性产生统计模型,以开发数学模型预测新型化合物的生物学特性。