在真实数据集上的随机森林模型参数调优

最新推荐文章于 2024-06-29 06:30:00 发布

热爱学习的栾宝宝

最新推荐文章于 2024-06-29 06:30:00 发布

阅读量387

点赞数

分类专栏：竞赛 study

本文链接：https://blog.csdn.net/weixin_41068770/article/details/107021511

版权

参考文献：

1.调参优化算法： https://www.cnblogs.com/pinard/p/6160412.html

2.机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）

3.实用Kaggle竞赛之随机森林评估及调参

4. 实用随机森林 - 针对时间序列的Kaggle技巧

搞机器学习的人，都会有自己偏爱的某种算法，有的喜欢支持向量机（SVM），因为它公式表达的优雅和可利用方法实现的高质量；有的人喜欢决策树，因为它的简洁性和解释能力；还有人对神经网络非常痴狂，因为它解决问题的灵活性（一般在超大规模的数据集上，使用神经网络，效果会好于其他所有的机器学习算法）。但是就我本人而言，我最喜欢的算法是随机森林，理由如下：

通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题，也能对分类问题应付自如，多分类和二分类都可以，一个能当三个用呢！
随机森林算法很难被打败。针对任何给定的数据集，几乎都表现的很好，当然你说神经网络会表现的更好，那么我应该不会反驳，因为我知道你是一个有耐心的人，可以连续很多天不休息，只是为了调参。
天生的并行性。从根本上说，随机森林就是众多的决策树组合，所以很容易把任务分解，使我们的随机森林算法并行。
当然，随机森林也有比较明显的缺点，对机器内存的要求比较高，为了增加我们预测的精度，我们可能需要建立几千棵甚至上万课决策树，所以买一个大内存的电脑是多么的有必要。

1 数据集

我们的数据集是来自一个著名的数据挖掘竞赛网站，是一个关于泰坦尼克号，游客生存情况的调查。可以从这里下载：泰坦尼克数据集。

上面的一张图，是我从官网上下载的，总的来说，里面的每一行数据，差不多有11个字段，包括游客的年龄、名字、性别、买的几等仓的票等等信息，最后是他的生存情况，在这场事故中，他是死了还是幸存。
不想解释了，直接读入数据吧
```
import numpy as np
import pandas as pd
from sklearn.ensemble import Rando
```

最低0.47元/天解锁文章

热爱学习的栾宝宝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
在真实数据集上的随机森林模型参数调优

搞机器学习的人，都会有自己偏爱的某种算法，有的喜欢支持向量机（SVM），因为它公式表达的优雅和可利用方法实现的高质量；有的人喜欢决策树，因为它的简洁性和解释能力；还有人对神经网络非常痴狂，因为它解决问题的灵活性（一般在超大规模的数据集上，使用神经网络，效果会好于其他所有的机器学习算法）。但是就我本人而言，我最喜欢的算法是随机森林，理由如下：通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题，也能对分类问题应付自如，多分类和二分类都可以，一个能当三个用呢！随机森林算法很难被打
复制链接

扫一扫