多输出支持向量回归matlab_RDKit：基于支持向量回归（SVR）预测logP

最新推荐文章于 2024-05-23 19:32:12 发布

weixin_39858298

最新推荐文章于 2024-05-23 19:32:12 发布

阅读量630

点赞数

文章标签：多输出支持向量回归matlab 支持向量回归预测怎么做

RDKit一个用于化学信息学的python库。使用支持向量回归(SVR)来预测logP。分子的输入结构特征是摩根指纹，输出是logP。

代码示例：

#导入依赖库
import numpy as np
from rdkit import Chem
from rdkit.Chem.Crippen import MolLogP
from rdkit import Chem, DataStructs
from rdkit.Chem import AllChem
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
from scipy import stats
import matplotlib.pyplot as plt

载入smile分子库，计算morgan指纹和logP

num_mols = 5000
f = open('smiles.txt', 'r')
contents = f.readlines()
fps_total = []
logP_total = []
for i in range(num_mols):
smi = contents[i].split()[0]
m = Chem.MolFromSmiles(smi)
fp = AllChem.GetMorganFingerprintAsBitVect(m,2)
arr = np.zeros((1,))
DataStructs.ConvertToNumpyArray(fp,arr)
fps_total.append(arr)
logP_total.append(MolLogP(m))
fps_total = np.asarray(fps_total)
logP_total = np.asarray(logP_total)

划分训练集和测试集

num_total = fps_total.shape[0]
num_train = int(num_total*0.8)
num_total, num_train, (num_total-num_train)

fps_train = fps_total[0:num_train]
logP_train = logP_total[0:num_train]
fps_test = fps_total[num_train:]
logP_test = logP_total[num_train:]

将SVR模型用于回归模型

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html

_gamma = 5.0
clf = SVR(kernel='poly', gamma=_gamma)
clf.fit(fps_train, logP_train)

完成训练后，应该检查预测的准确性。对于评估，将使用r2和指标的均方误差。

logP_pred = clf.predict(fps_test)
r2 = r2_score(logP_test, logP_pred)
mse = mean_squared_error(logP_test, logP_pred)
r2, mse

模型结果可视化

slope, intercept, r_value, p_value, std_error = stats.linregress(logP_test, logP_pred)
yy = slope*logP_test+intercept
plt.scatter(logP_test, logP_pred, color='black', s=1)
plt.plot(logP_test, yy, label='Predicted logP = '+str(round(slope,2))+'*True logP + '+str(round(intercept,2)))
plt.xlabel('True logP')
plt.ylabel('Predicted logP')
plt.legend()
plt.show()

参考：

https://github.com/SeongokRyu/CH485---Artificial-Intelligence-and-Chemistry

https://blog.csdn.net/zb123455445/article/details/78354489

weixin_39858298

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
多输出支持向量回归matlab_RDKit：基于支持向量回归（SVR）预测logP

RDKit一个用于化学信息学的python库。使用支持向量回归(SVR)来预测logP。分子的输入结构特征是摩根指纹，输出是logP。代码示例：#导入依赖库import numpy as npfrom rdkit import Chemfrom rdkit.Chem.Crippen import MolLogPfrom rdkit import Chem, DataStructsfro...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。