参考文献:
1.调参优化算法: https://www.cnblogs.com/pinard/p/6160412.html
2.机器学习(集成算法1:随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例)
搞机器学习的人,都会有自己偏爱的某种算法,有的喜欢支持向量机(SVM),因为它公式表达的优雅和可利用方法实现的高质量;有的人喜欢决策树,因为它的简洁性和解释能力;还有人对神经网络非常痴狂,因为它解决问题的灵活性(一般在超大规模的数据集上,使用神经网络,效果会好于其他所有的机器学习算法)。但是就我本人而言,我最喜欢的算法是随机森林,理由如下:
- 通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题,也能对分类问题应付自如,多分类和二分类都可以,一个能当三个用呢!
- 随机森林算法很难被打败。针对任何给定的数据集,几乎都表现的很好,当然你说神经网络会表现的更好,那么我应该不会反驳,因为我知道你是一个有耐心的人,可以连续很多天不休息,只是为了调参。
- 天生的并行性。从根本上说,随机森林就是众多的决策树组合,所以很容易把任务分解,使我们的随机森林算法并行。
-
当然,随机森林也有比较明显的缺点,对机器内存的要求比较高,为了增加我们预测的精度,我们可能需要建立几千棵甚至上万课决策树,所以买一个大内存的电脑是多么的有必要。
1 数据集
我们的数据集是来自一个著名的数据挖掘竞赛网站,是一个关于泰坦尼克号,游客生存情况的调查。可以从这里下载:泰坦尼克数据集。
上面的一张图,是我从官网上下载的,总的来说,里面的每一行数据,差不多有11个字段,包括游客的年龄、名字、性别、买的几等仓的票等等信息,最后是他的生存情况,在这场事故中,他是死了还是幸存。
不想解释了,直接读入数据吧import numpy as np import pandas as pd from sklearn.ensemble import Rando