RDKit | 基于RF和SVM的溶解度预测模型比较

最新推荐文章于 2024-05-14 10:27:55 发布

DrugAI

最新推荐文章于 2024-05-14 10:27:55 发布

阅读量2.4k

点赞数 2

分类专栏： RDKit | 化学信息学与AI 文章标签： RDKit 化学信息学 Python SVM 随机森林

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u012325865/article/details/103860274

版权

RDKit | 化学信息学与AI 专栏收录该内容

154 篇文章 639 订阅 ¥99.00 ¥99.00

订阅专栏

超级会员免费看

本文对比了基于RDKit的随机森林(RF)和支持向量机(SVM)在预测化合物溶解度方面的性能。随机森林在处理高维数据时表现出良好的泛化能力和特征重要性评估，而SVM则利用内积核函数实现非线性分类，对小样本学习有优势。两者各有优缺点，适用于不同的场景。

摘要由CSDN通过智能技术生成

随机森林与支持向量机

随机森林

目的

随机森林是一个用随机方式建立的，包含多个决策树的分类器。其随机性主要体现在两个方面：(1)训练每棵树时，从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即BootStrap取样)；(2)在每个节点，随机选取所有特征的一个子集，用来计算最佳的分割方式。

优点

能够处理高维(即特征很多)的数据，并且不用进行特征选择，是随机选择的。
训练结束后，能够给出哪些特征比较重要。
模型的泛化能力较强。
训练速度快，容易做成并行化方法，训练时树与树之间是相互独立的。
在训练过程中，能够检测到特征间的相互影响。
对于不平衡的数据集来说，可以平衡误差。
具有鲁棒性，即使有特征遗失，仍可以维持准确度。

缺点

在噪音较大的分类或回归问题上会出现过拟合。
对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生很大的影响，因此随机森林在这种数据上产生的属性权值是不可信的。

SVM

了解本专栏

超级会员免费看

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
RDKit | 基于RF和SVM的溶解度预测模型比较

随机森林与支持向量机随机森林目的随机森林是一个用随机方式建立的，包含多个决策树的分类器。其随机性主要体现在两个方面：(1)训练每棵树时，从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即BootStrap取样)；(2)在每个节点，随机选取所有特征的一个子集，用来计算最佳的分割方式。优点能够处理高维(即特征很多)的数据，并且不用进行特征选择，是随机选择...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DrugAI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。