使用sklearn进行集成学习——理论

最新推荐文章于 2021-07-16 00:26:54 发布

Goldxwang

最新推荐文章于 2021-07-16 00:26:54 发布

阅读量461

点赞数

分类专栏： sklearn 文章标签：数据挖掘

本文链接：https://blog.csdn.net/Goldxwang/article/details/73222022

版权

本文详细介绍了集成学习中的偏差和方差理论，特别是针对bagging和boosting。通过分析模型的偏差和方差，探讨了它们如何影响模型的准确度和防止过拟合能力。文章特别关注了Gradient Boosting，讨论了损失函数在训练过程中的作用，包括拟合残差、反向梯度和常见损失函数。通过对模型参数背后的理论知识的理解，为调参提供理论基础。

摘要由CSDN通过智能技术生成

1 前言
2 集成学习是什么？
3 偏差和方差
　　3.1 模型的偏差和方差是什么？
　　3.2 bagging的偏差和方差
　　3.3 boosting的偏差和方差
　　3.4 模型的独立性
　　3.5 小结
4 Gradient Boosting
　　4.1 拟合残差
　　4.2 拟合反向梯度
　　　　4.2.1 契机：引入损失函数
　　　　4.2.2 难题一：任意损失函数的最优化
　　　　4.2.3 难题二：无法对测试样本计算反向梯度
　　4.3 常见的损失函数
　　4.4 步子太大容易扯着蛋：缩减
　　4.5 初始模型
　　4.5 Gradient Tree Boosting
　　4.6 小结
5 总结
6 参考资料

1 前言

　　很多人在竞赛（Kaggle，天池等）或工程实践中使用了集成学习（例如，RF、GTB等），确实也取得了不错的效果，在保证准确度的同时也提升了模型防止过拟合的能力。但是，我们真的用对了集成学习吗？

　　sklearn提供了sklearn.ensemble库，支持众多集成学习算法和模型。恐怕大多数人使用这些工具时，要么使用默认参数，要么根据模型在测试集上的性能试探性地进行调参（当然，完全不懂的参数还是不动算了），要么将调参的工作丢给调参算法（网格搜索等）。这样并不能真正地称为“会”用sklearn进行集成学习。

　　我认为，学会调参是进行集成学习工作的前提。然而，第一次遇到这些算法和模型时，肯定会被其丰富的参数所吓到，要知道，教材上教的伪代码可没这么多参数啊！！！没关系，暂时，我们只要记住一句话：参数可分为两种，一种是影响模型在训练集上的准确度或影响防止过拟合能力的参数；另一种不影响这两者的其他参数。模型在样本总体上的准确度（后简称准确度）由其在训练集上的准确度及其防止过拟合的能力所共同决定，所以在调参时，我们主要对第一种参数进行调整，最终达到的效果是：模型在训练集上的准确度和防止过拟合能力的大和谐！

　　本篇博文将详细阐述模型参数背后的理论知识，在下篇博文中，我们将对最热门的两个模型Random Forrest和Gradient Tree Boosting（含分类和回归，所以共4个模型）进行具体的参数讲解。如果你实在无法静下心来学习理论，你也可以在下篇博文中找到最直接的调参指导，虽然我不赞同这么做。

2 集成学习是什么？

　　我们还是花一点时间来说明一下集成学习是什么，如果对此有一定基础的同学可以跳过本节。简单来说，集成学习是一种技术框架，其按照不同的思路来组合基础模型，从而达到其利断金的目的。

　　目前，有三种常见的集成学习框架：bagging，boosting和stacking。国内，南京大学的周志华教授对集成学习有很深入的研究，其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义，概括如下：

　　bagging：从训练集从进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：

　　boosting：训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果：

　　stacking：将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测：

　　有了这些基本概念之后，直觉将告诉我们，由于不再是单一的模型进行预测，所以模型有了“集思广益”的能力，也就不容

最低0.47元/天解锁文章

Goldxwang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用sklearn进行集成学习——理论

目录1 前言2 集成学习是什么？3 偏差和方差　　3.1 模型的偏差和方差是什么？　　3.2 bagging的偏差和方差　　3.3 boosting的偏差和方差　　3.4 模型的独立性　　3.5 小结4 Gradient Boosting　　4.1 拟合残差　　4.2 拟合反向梯度　　　　4.2.1 契机：引入损失函数　　　　4.2.2 难题一：
复制链接

扫一扫

专栏目录