【漫话机器学习系列】196.袋外数据误差（Out-of-Bag Error, OOB Error）

IT古董

于 2025-04-12 08:54:04 发布

阅读量803

点赞数 14

分类专栏：漫话机器学习系列专辑文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/147107846

版权

漫话机器学习系列专辑专栏收录该内容

253 篇文章

订阅专栏

袋外数据误差（Out-of-Bag Error, OOB Error）详解

1. 背景与定义

什么是袋外数据（Out-of-Bag, OOB）？

在随机森林（Random Forest）或Bagging（自助采样）模型中，模型训练过程中会使用Bootstrap抽样（有放回抽样）来构建每一棵子模型的训练集。

在每次Bootstrap采样时，大约63%的数据会被抽中作为训练集，而剩下的约37%的数据没有被抽中，这部分未被抽中的数据就是——袋外数据（Out-of-Bag Data）。

什么是袋外误差（OOB Error）？

袋外误差是利用袋外数据对模型进行验证并计算误差的一种方式。

OOB误差 = 所有袋外样本的预测误差的平均值

这个过程完全不需要额外的验证集或测试集！

2. OOB误差的工作机制（示意图）

整体数据集：{x1, x2, x3, x4, x5, x6}

假设训练3棵树：
Tree1 训练数据: {x1, x2, x4, x4, x6} → OOB: {x3, x5}
Tree2 训练数据: {x1, x3, x3, x5, x6} → OOB: {x2, x4}
Tree3 训练数据: {x2, x3, x4, x5, x5} → OOB: {x1, x6}

每个样本都会有若干次未被采样（OOB），可以利用这些OOB树来预测它，最终统计误差。

3. 数学表达与推导

Bootstrap抽样的特点：

假设样本数为n，每次抽样都独立且有放回，那么某个样本未被抽到的概率为：

说明约有37%的数据是袋外数据。

OOB误差的公式：

设：

是第 i 个样本
是不包含的所有树的集合
是用袋外树预测的结果

则：

其中 L 为损失函数，分类用 0-1 损失，回归用均方误差。

4. Python 实践代码（以随机森林为例）

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据
X, y = load_iris(return_X_y=True)

# 构建带OOB的随机森林
model = RandomForestClassifier(n_estimators=100, oob_score=True, random_state=42)

model.fit(X, y)

# OOB误差
print("OOB Score:", model.oob_score_)
print("OOB Error:", 1 - model.oob_score_)

# 使用全部数据测试（只是为了对比）
y_pred = model.predict(X)
print("Train Accuracy:", accuracy_score(y, y_pred))

运行结果

OOB Score: 0.9533333333333334
OOB Error: 0.046666666666666634
Train Accuracy: 1.0

5. OOB误差的优缺点

优势	劣势
不需要额外划分验证集	只适用于Bagging类模型
高效，利用已有数据	小数据集时不太稳定
误差估计与独立测试集接近	分类问题更可靠，回归相对稍差