【机器学习-27】bagging

超华东算法王

于 2025-02-13 11:00:04 发布

阅读量957

点赞数 7

分类专栏：黄金专栏-小孩ML 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_69378371/article/details/145607441

版权

黄金专栏-小孩ML 专栏收录该内容

42 篇文章

订阅专栏

Bagging（Bootstrap Aggregating）是一种集成学习方法，通过将多个学习器的预测结果进行合并，以提高模型的精度和稳定性。Bagging通常用于减少模型的方差，特别是对于易过拟合的模型，如决策树。其核心思想是通过构建多个弱分类器（通常是同一个基础学习器的多个实例），并将其预测结果结合起来。

Bagging的基本原理

Bagging的核心思想是通过自助法（Bootstrap sampling）生成多个训练子集，然后在每个子集上训练一个模型，最后将这些模型的预测结果通过投票或平均的方式进行集成。

1. Bootstrap Sampling（自助法）

自助法是一种随机采样的技术，从原始数据集（大小为N）中随机抽取N个样本来构成一个新的训练集，允许重复抽样。这个过程会生成多个数据子集，每个子集用于训练一个独立的学习器。

2. 训练多个模型

对于每个训练子集，训练一个模型（通常是相同的模型），例如决策树、线性回归等。每个模型会根据自己的数据子集进行训练，因此每个模型可能会有不同的学习结果。

3. 模型预测结果的合并

对于回归问题，所有模型的预测结果进行平均，以得到最终的预测值。
对于分类问题，通过对所有模型的预测结果进行投票（多数表决），选择出现次数最多的类别作为最终的分类结果。

Bagging的优势

降低方差：
- Bagging通过训练多个模型并进行集成，能够显著减少单一模型可能出现的过拟合现象。因此，Bagging尤其适用于高方差的模型，如决策树。
提高稳定性：
- 在不同数据子集上训练多个模型，能够平滑不同模型之间的误差，从而提高模型的泛化能力和稳定性。
并行化：
- 由于每个模型都是在不同的数据子集上独立训练的，因此Bagging可以非常容易地进行并行化，从而提高计算效率。

Bagging的缺点

计算开销较大：
- 需要训练多个模型，并将其预测结果进行集成，因此计算开销较大，尤其在样本量较大时。
不适合降低偏差：
- Bagging的主要作用是降低方差，但对于高偏差（欠拟合）的模型，Bagging的效果有限。如果基础模型本身无法很好地拟合数据，Bagging不能有效提升性能。

Bagging的经典算法：随机森林（Random Forest）

随机森林是Bagging的一种扩展，它通过在每个决策树节点上随机选择特征来构建多颗决策树，从而提高模型的多样性。随机森林的关键步骤包括：

使用Bootstrap采样法构建训练集。
在每个节点划分时，不是考虑所有特征，而是随机选择一部分特征进行分裂。
通过多数投票（分类问题）或平均（回归问题）来集成所有决策树的预测结果。

Bagging算法的伪代码

# 输入：训练数据集 D = {(x1, y1), (x2, y2), ..., (xn, yn)}
# 输出：集成模型的预测结果

# Step 1: 生成多个训练子集
for i = 1 to M:  # M为模型数量
    # 随机从D中有放回地抽取N个样本，构成训练子集 Di
    Di = bootstrap_sampling(D)
    
    # Step 2: 使用训练子集 Di 训练模型 fi
    model[i] = train_model(Di)

# Step 3: 集成多个模型的结果
for each x in test_set:
    # 分类问题：投票选择多数类别
    y_pred = majority_vote([model[i].predict(x) for i in range(M)])
    
    # 回归问题：计算所有模型的平均值
    y_pred = mean([model[i].predict(x) for i in range(M)])
    
# 输出最终的预测结果
return y_pred

Bagging算法的应用案例

1. 随机森林

随机森林是基于Bagging的一个经典案例，尤其在分类问题中广泛应用。例如，在金融欺诈检测中，使用随机森林来识别欺诈行为，能够根据大量的历史交易数据进行高效分类。

2. 医学诊断

Bagging在医学影像分析中也有应用。例如，使用多个决策树模型对X光片或MRI图像进行分析，将不同模型的预测结果结合，可以提高诊断的准确性和可靠性。

总结

Bagging是一种强大的集成学习方法，尤其适用于高方差的模型，如决策树。通过集成多个训练好的模型，Bagging不仅能够有效地减少模型的方差，提高预测的稳定性和准确性，还能够很好地应对过拟合问题。尽管计算开销较大，但其在实际应用中仍然被广泛使用，尤其是结合其他算法（如随机森林）时，能够提供强大的预测能力。