1.随机森林中的随机的概念解释:
随机体现在模型中就是对行和列进行随机的选取
- 行: 随机选取部分样本
- 列:随机选取本分特征
- 这两个条件保证了避免过拟合的发生
2.随机森林是有很多颗决策树组成的.每一颗决策树都是强分类器,每一个分类器都是对部分数据的一个"精准"预测器,因此需要将很多颗决策树进行汇集,最后得到答案.
对于数字类型的答案:比较常见的手法是求多颗决策树预测结果的平均值
对于分类的答案:比较常见的手法是进行投票
3.随机森林自带bagging属性 boostrap aggregation
4.High bias是模型欠拟合,导致误差较大 model过于简单
high variance是因为模型过拟合,记住了太多的异常值和噪声,