实习汇报目录(面试亦是如此)
1.什么是weka
2.
机器学习算法的性能很大程度上依赖于应用程序和数据集的维度
a.随机森林几乎不需要输入准备。它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理。
b.随机森林可实现隐式特征选择,并且提供一个很好的特征重要性指标。
c.随机森林训练速度非常快。它的一个特色就是当性能优化时,恰巧会提高模型精度,反之亦然。随机特征子集设置的目的在于多样化单个树,同时也是一个出色的性能优化!此外,特征调整部分被认为是,在任何给定的节点下,都可以让你在有着成千上万个特征的数据集中轻松的工作。(如果你的数据集有很多行,此方法同样适用于行采样)。
d.随机森林很难超越。尽管你通常可以找到一个模型,该模型在任何给定的数据集上都可以超越随机森林(一般是神经网络或者一些boosting算法),但是这样的模型并不多,而且和随机森林相比,建立和调整这些模型所需要的时间通常更长。这也是为什么仅仅把它们当作优秀的参考模型的原因。
e.真的很难建立一个糟糕的随机森林模型!因为随机森林对特定的超参数的使用并不是非常敏感,它们不需要做大量的调整和修改就可以得到一个体面的模型,只要使用大量的树,实验结果就不会显得糟糕。大多数Random Forest的实现对于可选的参数都有一个合理的默认值。
f.通用性。随机森林适用于各种各样的建模工作,它们可以很好的处理回归任务和分类任务(甚至产生体面的校正的概率分数),尽管我在聚类方面没有尝试过,但它同样可以用于聚类分析。
g.简洁性。如果不是模型产生的,那么就是学习算法自身带有的特性。基本的RF学习算法只需要几行代码就可以实现。对于这一点确实有点讽刺意味,但也有一种优雅的感觉。
h.大量优秀、免费以及开源的实现。你可以在几乎所有主要的机器学习库或工具箱中找到很好的实现。R,scikit-learn和Weka就是因为有着特别好的实现而备受关注。
k.似乎所有的这些都还不够,RandomForest能够以并行方式轻松的成长。而对于boosted模型和大的神经网络,则不能。