本博客参考邹博机器学习课件以及周志华的《机器学习》,仅用于督促自己学习使用,如有错误,欢迎大家提出更正。ps:前面几篇主要关注的是机器学习理论部分,后续博文会写一些相关的实践内容。
随机森林(Random Forest)是在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。首先,来了解一下Bagging的内容。
1、Bagging
Bagging是一种并行式集成学习(ensemble learning)方法。Bagging的策略是自助采样法(bootstrap sampling),即从样本集中重采样(有重复的/有放回的)选出m个样本。采样集的大小和原始样本大小相等。由于是对原始数据集的有放回采样,同一个采样集中可能出现多次同一个样本数据。
假设我们将上述过程重复 T T