药物评价指标
药物相似性的定量估计(QED)
该概念由 Richard Bickerton 及其同事首次引入 [1]。
QED 测量的经验原理反映了分子性质的基本分布,包括分子量、logP、拓扑极性表面积、氢键供体和受体的数量、芳环和可旋转键的数量以及不需要的化学官能团的存在。
由基于 RDKit 的 Biscu-it™ 实现生成的QED结果与原始出版物 [1] 中的结果并不完全相同。这些差异是两种方法中使用的基础计算属性计算器内部差异的结果。例如,在 logP 计算的结果中可以注意到差异,尽管事实上这两种方法(原始出版物中的 Pipeline Pilot 和我们的 Biscu-it™ 实现中的 RDKit)都提到使用 Wildman 和 Crippen 方法计算它们的 logP 值 [2]。但是,所得 QED 值的差异非常小,不会影响在日常研究中使用 Qed 的有用性。
[1] Bickerton, G.R.; Paolini, G.V.; Besnard, J.; Muresan, S.; Hopkins, A.L. (2012)
‘Quantifying the chemical beauty of drugs’, Nature Chemistry, 4, 90-98 [https://doi.org/10.1038/nchem.1243]
[2] Wildman, S.A.; Crippen, G.M. (1999)
‘Prediction of Physicochemical Parameters by Atomic Contributions’, Journal of Chemical Information and Computer Sciences, 39, 868-873 [https://doi.org/10.1021/ci990307l]
实际确定QED的定义时,有必要确定每个描述符的权重。确定该系数以便最大化香农篇(可以由QED解释的信息量),并考虑以下三种情况。
- QED w,max:给出最大烯的系数
- QED w,mo:给出前1000个篇的系数的平均值
- QED w,u:所有描述符均被等同考虑(系数为1.0)在QEDw,max的情况下,PSA和HBA系数为零。即,建议其中包含的信息由其他描述符覆盖。本文进行的主成分分析对此提供了支持。
在QEDw,max的情况下,PSA和HBA系数为零。即,建议其中包含的信息由其他描述符覆盖。本文进行的主成分分析对此提供了支持。
基于RDKit计算QED
from rdkit import rdBase, Chem
from rdkit.Chem import PandasTools, QED, Descriptors, rdMolDescriptors
%matplotlib inline
print(rdBase.rdkitVersion)
df = PandasTools.LoadSDF('structures.sdf')
len(df)
## 计算QED
df['QED'] = df.ROMol.map(QED.qed)
## 定义Lipinsky
def rule_of_five(m):
mw = Descriptors.MolWt(m)
logp = Descriptors.MolLogP(m)
hbd = rdMolDescriptors.CalcNumLipinskiHBD(m)
hba = rdMolDescriptors.CalcNumLipinskiHBA(m)
psa = Descriptors.TPSA(m)
if (mw <= 500 and logp <= 5 and hbd <= 5 and hba <= 10):
return 1
else:
return 0
## 绘图
import matplotlib as mpl
import seaborn as sns
with mpl.style.context('seaborn'):
sns.violinplot(x='Lipinski', y='QED', data=df)
参考
https://blog.csdn.net/u012325865/article/details/101111516