随机森林小结

机器学习中,随机森林是一种组合方法,由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

随机森林由决策树组成,决策树实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,计算信息增益,或者Gini值,一步一步往下分裂,最后使得样本落入N个区域中的一个(假设有N个叶子节点,对于二元分类,N=2)。

 

随机森林可以既可以处理属性为离散值的量,比如ID3算法,也可以处理属性为连续值的量,比如C4.5算法。(Q:sklearn模块中调用的RandomForestClassifier需要对连续属性离散化,如何处理连续属性???)

 

随机森林的优点:

1.适合做多分类问题;当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法(通过属性评估?);

2.训练和预测速度快;

3.对训练数据的容错能力,是一种有效估计missing值的方法,当数据集中有大比例的数据缺失时仍然可以保持精度不变;

4.能够有效地处理大的数据集;

5.它能够处理很高维度(feature很多)的数据,并且不用做特征选择

6.能够在分类的过程中可以生成一个泛化误差的内部无偏估计(OOB error可以作为泛化误差的一个估计);

7.能够检测到特征之间的相互影响以及重要性程度(通过feature_importances_方法);

8.不容易出现过度拟合;实现简单容易并行化(通过n_jobs)。

9.模型的上述性能可以被扩展运用到未标记的数据集中,用于引导无监督聚类、数据透视和异常检测(如何实现???);


随机森林的缺点:

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值