分类模型——随机森林
用于数据分析算法的分类模型有很多种,比如决策树、人工神经网络、朴素贝叶斯,随机森林等。本次我们重点介绍“随机森林”模型如何绘制成图形。
随机森林(Random Forest)是一种由决策树构成的集成学习算法,基本单元是决策树,通过建立多个决策树模型的组合来解决预测问题。单个的决策树模型如下:
构造随机森林有四个步骤:
1、随机抽样,组建单个决策树
针对研究对象抽取样本(每次抽取样本后放回),通过选择好的样本用来训练一个决策树,作为决策树根节点处的样本。
2、随机选取属性做分裂节点
每个样本有多个属性,根据不同属性,在决策树的每个节点进行分裂(属性很多时可以抽取样本属性)。
3、重复步骤二,直到不能再分裂
4、把单个的决策树组合,形成随机森林模型。随机森林的优缺点
1、优点:
(1)它可以描述特征很多的数据,无需做特征选择;
(2)它可以判断特征的重要程度;
(3)可以判断出不同特征之间的相互影响;
(4)在机器算法训练中,速度比较快,容易做成并行方法;
(6)如果有很大一部分的特征遗失,仍可以维持准确度。
2、缺点&