定量构效关系(QSAR)指利用数理统计方法建立特定性质与分子理化性质参数或结构参数之间关系的方法。目前多款商业软件都已集成了该功能,之所以以MOE为例,是因为它的QSAR构建页面是我见过最简洁、最直观的,而且功能分区比较集中,不需要开开关关多个窗口。
1. 打开任意一个sdf文件
这里选择打开MOE内部示例数据(该数据集记录了每个分子血脑屏障通透性数值logBB)最终目标是训练一个可以预测分子血脑屏障通透性的QSAR模型。
如果你想要给分子添加新的属性,比如IC50值等,可以选中某列表头右键,选择new,定义新的一列列名,并手动给每个分子添加各自数值。
2.清洗结构,生成三维坐标
3.计算分子描述符
计算分子描述符或分子指纹,类似于deepchem中的Feature:
这里我随便选了几个Descriptor(分子描述符),如下图:
下图红框内的就是新计算生成的分子描述符
4.构建QSAR模型
本例我们构建的QSAR模型是用来预测logBB的,这中预测值是数值上连续的,所以选择模型时选第一个QSAR即可(如下图);如果预测值是分类型的(如有无毒性,有无活性等),则需要选择第二个分类模型—Classification。
下图如果勾选selected entries only,则只会选用选中的数据进行构建QSAR模型。想象一下,如果你后续对模型验证时发现有影响模型准确性的"坏"数据,则可以在重新构建模型时不选中这些数据,同时勾选selected entries only前的方框,这样就可以排除这些数据的干扰了。
进行这一步之前,最好点一下Validate,看一下模型构建的品质。尤其是需要找出影响模型准确度的数据(XZ-SCORE大于1.5的最好去除)
5.用构建好的QSAR模型预测其他分子的logBB值
这里为了简化操作,就拿上面模型构建的数据进行预测吧
6.绘图查看预测值与实际值间的相关性
上图可以看出预测的结果并没有太好,R2仅有0.58。这多半是因为中间跳过了validate一步,正常情况下模型构建好后需要validate,剔除XZ-SCORE大于1.5的数据,再重新进行模型构建。