立即学习:https://edu.csdn.net/course/play/10582/236115?utm_source=blogtoedu
训练集上方差大的原因,通常是模型太复杂,泛化能力弱。如决策树,为了提高泛化能力,引入随机森林。
Bagging
易证明覆盖率在N趋于极限情况为:
1-e^-1 ≈ 0.632
bootstrap样本:N个样本数据,进行N次有放回采样N个数据。
重复M次取均值集aggregating
合起来简称bagging 成功将方差变为接近∂^2/M
sklearn支持对任意学习器的Bagging
n_estimators :M
max_features:用特征的数量,只用部分,每个模型间相关性更低
bootstrap:bool随机采样时是否放回。
bootstrap_features:随机采样特征是否放回。
oob_score:out of bag score,是否用没有采样到的数据,作验证。
学习器建议数量:
分类:√D
回归:D/3 D为dimensions
Random Forest
由于每次bagging极限情况下的采样数据覆盖为63.2%,多次bagging会有重复,相关性很高,方差不完全满足∂^2/M。
所以有随机森林。
随机选择一部分特征,随机选择一部分样本。多棵树,参数不好解释。