在真实数据集上的随机森林模型参数调优

参考文献:

1.调参优化算法: https://www.cnblogs.com/pinard/p/6160412.html

2.机器学习(集成算法1:随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例)

3.实用Kaggle竞赛之随机森林评估及调参

4. 实用随机森林 - 针对时间序列的Kaggle技巧

 

搞机器学习的人,都会有自己偏爱的某种算法,有的喜欢支持向量机(SVM),因为它公式表达的优雅和可利用方法实现的高质量;有的人喜欢决策树,因为它的简洁性和解释能力;还有人对神经网络非常痴狂,因为它解决问题的灵活性(一般在超大规模的数据集上,使用神经网络,效果会好于其他所有的机器学习算法)。但是就我本人而言,我最喜欢的算法是随机森林,理由如下:

  • 通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题,也能对分类问题应付自如,多分类和二分类都可以,一个能当三个用呢!
  • 随机森林算法很难被打败。针对任何给定的数据集,几乎都表现的很好,当然你说神经网络会表现的更好,那么我应该不会反驳,因为我知道你是一个有耐心的人,可以连续很多天不休息,只是为了调参。
  • 天生的并行性。从根本上说,随机森林就是众多的决策树组合,所以很容易把任务分解,使我们的随机森林算法并行。
  • 当然,随机森林也有比较明显的缺点,对机器内存的要求比较高,为了增加我们预测的精度,我们可能需要建立几千棵甚至上万课决策树,所以买一个大内存的电脑是多么的有必要。

    1 数据集

    我们的数据集是来自一个著名的数据挖掘竞赛网站,是一个关于泰坦尼克号,游客生存情况的调查。可以从这里下载:泰坦尼克数据集

    上面的一张图,是我从官网上下载的,总的来说,里面的每一行数据,差不多有11个字段,包括游客的年龄、名字、性别、买的几等仓的票等等信息,最后是他的生存情况,在这场事故中,他是死了还是幸存。
    不想解释了,直接读入数据吧

    import numpy as np
    import pandas as pd
    from sklearn.ensemble import Rando
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值