随机森林

实习汇报目录(面试亦是如此)

1.什么是weka

2.

机器学习算法的性能很大程度上依赖于应用程序和数据集的维度

a.随机森林几乎不需要输入准备。它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理。

b.随机森林可实现隐式特征选择,并且提供一个很好的特征重要性指标。

c.随机森林训练速度非常快。它的一个特色就是当性能优化时,恰巧会提高模型精度,反之亦然。随机特征子集设置的目的在于多样化单个树,同时也是一个出色的性能优化!此外,特征调整部分被认为是,在任何给定的节点下,都可以让你在有着成千上万个特征的数据集中轻松的工作。(如果你的数据集有很多行,此方法同样适用于行采样)。

d.随机森林很难超越。尽管你通常可以找到一个模型,该模型在任何给定的数据集上都可以超越随机森林(一般是神经网络或者一些boosting算法),但是这样的模型并不多,而且和随机森林相比,建立和调整这些模型所需要的时间通常更长。这也是为什么仅仅把它们当作优秀的参考模型的原因。

e.真的很难建立一个糟糕的随机森林模型!因为随机森林对特定的超参数的使用并不是非常敏感,它们不需要做大量的调整和修改就可以得到一个体面的模型,只要使用大量的树,实验结果就不会显得糟糕。大多数Random Forest的实现对于可选的参数都有一个合理的默认值。

f.通用性。随机森林适用于各种各样的建模工作,它们可以很好的处理回归任务和分类任务(甚至产生体面的校正的概率分数),尽管我在聚类方面没有尝试过,但它同样可以用于聚类分析。

g.简洁性。如果不是模型产生的,那么就是学习算法自身带有的特性。基本的RF学习算法只需要几行代码就可以实现。对于这一点确实有点讽刺意味,但也有一种优雅的感觉。

h.大量优秀、免费以及开源的实现。你可以在几乎所有主要的机器学习库或工具箱中找到很好的实现。R,scikit-learn和Weka就是因为有着特别好的实现而备受关注。

k.似乎所有的这些都还不够,RandomForest能够以并行方式轻松的成长。而对于boosted模型和大的神经网络,则不能。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值