集成学习
我们之前学习的模型都是单一的,独立的。对于整体表现比较差点数据可能在某一方面超过“最好”的模型表现。因此提出将数据进行组合,集成学习以提升训练精度。
袋装模型 Bagging
从一个数据集,产生需对随机的数据子集。在做预测时,对这些数据子集都投入到模型中进行预测,在进行组合投票。
随机森林
样本随机:用Bagging的方式随机选择N个样本。
特征随机:从所有属性d中选择k个属性,然后从K个属性中选择最佳分割属性作为节点建立CART决策树(Gini系数)
随机森林建立的是树模型,重复以上两个步骤m次,建立m棵决策树。最后,对这m棵CART决策树的结果进行投票,将投票次数最多的类别指定为最终的输出。
随机森林的特点
- 在当前所有算法中,具有极好的准确率/It is unexcelled in accuracy among current algorithms;
- 能够有效地运行在大数据集上/It runs efficiently on large data bases;
- 能够处理具有高维特征的输入样本,而且不需要降维/It can handle thousands of input variables without variable deletion;
- 能够评估各个特征在分类问题上的重要性/It gives estimates of what variables are important in the classification;
- 在生成过程中,能够获取到内部生成误差的一种无偏估计/It gen