随机森林算法的简单总结及python实现-CSDN博客

本文链接：https://blog.csdn.net/lo_cima/article/details/50533010

　　随机森林是数据挖掘中非常常用的分类预测算法，以分类或回归的决策树为基分类器。算法的一些基本要点：

　　*对大小为m的数据集进行样本量同样为m的有放回抽样；

*对K个特征进行随机抽样，形成特征的子集，样本量的确定方法可以有平方根、自然对数等；

*每棵树完全生成，不进行剪枝；

*每个样本的预测结果由每棵树的预测投票生成（回归的时候，即各棵树的叶节点的平均）

　　著名的python机器学习包scikit learn的文档对此算法有比较详尽的介绍: http://scikit-learn.org/stable/modules/ensemble.html#random-forests

　　出于个人研究和测试的目的，基于经典的Kaggle 101　泰坦尼克号乘客的数据集，建立模型并进行评估。比赛页面及相关数据集的下载：https://www.kaggle.com/c/titanic

　　泰坦尼克号的沉没，是历史上非常著名的海难。突然感到，自己面对的不再是冷冰冰的数据，而是用数据挖掘的方法，去研究具体的历史问题，也是饶有兴趣。言归正传，模型的主要的目标，是希望根据每个乘客的一系列特征，如性别、年龄、舱位、上船地点等，对其是否能生还进行预测，是非常典型的二分类预测问题。数据集的字段名及实例如下：