在真实数据集上的随机森林模型参数调优

最新推荐文章于 2024-07-01 18:30:25 发布

datayx

最新推荐文章于 2024-07-01 18:30:25 发布

阅读量1.7k

点赞数

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

大数据挖掘DT机器学习公众号： datayx

搞机器学习的人，都会有自己偏爱的某种算法，有的喜欢支持向量机（SVM），因为它公式表达的优雅和可利用方法实现的高质量；有的人喜欢决策树，因为它的简洁性和解释能力；还有人对神经网络非常痴狂，因为它解决问题的灵活性（一般在超大规模的数据集上，使用神经网络，效果会好于其他所有的机器学习算法）。但是就我本人而言，我最喜欢的算法是随机森林，理由如下：

通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题，也能对分类问题应付自如，多分类和二分类都可以，一个能当三个用呢！
随机森林算法很难被打败。针对任何给定的数据集，几乎都表现的很好，当然你说神经网络会表现的更好，那么我应该不会反驳，因为我知道你是一个有耐心的人，可以连续很多天不休息，只是为了调参。
天生的并行性。从根本上说，随机森林就是众多的决策树组合，所以很容易把任务分解，使我们的随机森林算法并行。

当然，随机森林也有比较明显的缺点，对机器内存的要求比较高，为了增加我们预测的精度，我们可能需要建立几千棵甚至上万课决策树，所以买一个大内存的电脑是多么的有必要。

1 数据集

我们的数据集是来自一个著名的数据挖掘竞赛网站，是一个关于泰坦尼克号，游客生存情况的调查。可以从本公众号数据集菜单里面下载。

640?wx_fmt=png

各个数据字段的含义

640?wx_fmt=png

前十行数据

稍微分析一下，我们就可以筛选出对一个游客的生存与否有关的变量：Pclass, Sex, Age, SibSp，Parch，Fare, Embarked. 一般来说，游客的名字，买的船票号码对其的生存情况应该影响很小。

len(train_data)
out:891

我们共有891条数据，将近900条，我们使用600条作为训练数据，剩下的291条作为测试数据，通过对随机森林的参数不断调优，找出在测试结果上，预测最为精确的随机森林模型。

在具体的实验之前，我们看一下使用随机森林模型，需要注意哪几个变量：

640?wx_fmt=png

A. max_features：

随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。下面是其中的几个：

Auto/None ：简单地选取所有特征，每颗树都可以利用他们。这种情况下，每颗树都没有任何的限制。

sqrt ：此选项是每颗子树可以利用总特征数的平方根个。例如，如果变量（特征）的总数是100，所以每颗子树只能取其中的10个。“log2”是另一种相似类型的选项。

0.2：此选项允许每个随机森林的子树可以利用变量（特征）数的20％。如果想考察的特征x％的作用，我们可以使用“0.X”的格式。

max_features如何影响性能和速度？

增加max_features一般能提高模型的性能，因为在每个节点上，我们有更多的选择可以考虑。然而，这未必完全是对的，因为它降低了单个树的多样性，而这正是随机森林独特的优点。但是，可以肯定，你通过增加max_features会降低算法的速度。因此，你需要适当的平衡和选择最佳max_features。

n_estimators：