Author: Frank
随机森林是基于决策树的一种经典的机器学习方法,其由许多课决策树构成,这些决策树是根据带标签的样本数据建立而来。建立各个决策树时采用随机抽样的方法,即从全部标记样本中随机选出部分样本,然后使用这些样本的部分特征建立一课决策树。
对未标记样本做预测时,随机森林里的每一个决策树都需要预测出一个结果,然后综合考虑所有结果给出最终的预测。
随机森林的优点:
a. 对于很多数据集表现良好,精确度比较高,在kaggle等数据竞赛中一般情况下会有较好的表现;
b. 不容易发生过拟合;
c. 可以得到变量的重要性排序;
d. 既能处理离散型数据,也能处理连续型数据,且不需要进行归一化处理;
e. 能够很好的处理缺失数据;
f. 容易并行化,实现相对简单。