随机森林模型的思想
一个学习器,不管是分类还是回归问题我们衡量学习器好坏主要是从两个方面去衡量,一个是偏差(bias),一个是方差(variance)。通常情况下偏差代表着模型的准确性,方差代表着模型的泛化能力。我们在训练一个模型的时候,两方面都要同时兼顾,如果偏差太大,则我们的模型精确性太差,如果我们的模型的方差太大,则我们的模型的泛化能力太差。
我们用一个图来表示方差和偏差之间的关系:
如上图所示,偏差随着模型的复杂程度的提高会逐步减小,但是方差随着模型的复杂程度的提高会逐渐增大,所以我们的损失函数中一般都会加入正则项对方差和偏差同时做优化。但是这样优化的结果相当于我们在方差和偏差之间做了折中的选择,从而保证了总的损失最小化,如图中的交点位置。那我们现在的问题是能不能在保证模型的模型的偏差的同时,降低模型的方差或者在保证模型的方差的同时降低模型的偏差。我们可能这样做吗?答案是肯定的。
我们首先来回忆一下期望和方差的公式: