...
随机森林是并行的思想,少数服从多数!!!挺体现机器学习中的集体智慧的思想,之前的推荐系统中的基于用户的协同过滤算法体现的也是集体智慧,统计所有用户的数据,假如60%的用户买了A产品之后又买了B产品,那么当一个新用户进来之后买了A产品,那么我们就给新用户推荐B产品!
那怎么防止随机森林过拟合呢?
剪枝。
剪枝的意义是:防止决策树生成过于庞大的子叶,避免实验预测结果过拟合,在实际生产中(泛化能力)效果很差。
剪枝通常有两种:PrePrune:预剪枝,及早的停止树增长,在每个父节点分支的时候计算是否达到了限制值
PostPrune:后剪枝,基于完全生长(过拟合)的树上进行剪枝,砍掉一些对衡量函数影响不大的枝叶
剪枝的依据:
常见的有错误率校验(判断枝剪是降低了模型预测的正确率),统计学检验,熵值,代价复杂度等等