1.模型原理
随机森林(Random Forest)回归模型是一种集成学习方法,用于解决回归问题。它由多个决策树组成,通过对这些决策树的预测结果进行平均或投票来得到最终的预测值。以下是随机森林回归模型的详细原理:
-
随机抽样:
- 随机森林使用自助采样法(Bootstrap Sampling)从原始训练集中随机抽取一定数量的样本(有放回地抽样),形成多个子样本集。每个子样本集的大小与原始训练集相同,但可能包含重复的样本和未被抽到的样本。
-
决策树构建:
- 对于每个子样本集,构建一个决策树。决策树是一种树状结构,其中每个节点代表一个特征,每个分支代表一个特征值的划分,每个叶节点代表一个预测值。
- 在构建决策树时,每次选择一个特征进行划分,选取最佳的划分点,使得划分后各个子集的均方误差(MSE)或其他预定义的指标最小化。
- 决策树的构建终止条件可以是达到最大深度、节点样本数量少于某个阈值或节点的均方误差小于某个阈值等。
-
预测结果:
- 对于每个决策树,利用构建好的决策规则,将新的输入特征进行遍历,最