![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
集成学习
文章平均质量分 85
克莱蒂的青鸟
这个作者很懒,什么都没留下…
展开
-
2021-05-22
集成学习-15数据探索数据分布模型构建以及集成学习数据探索锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。本次该案例是使用以上工业指标的特征,进行蒸汽量的预测问题。这部分的数据包括其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。需要说明的是目标量与上次不同,此次是连续的相应变量。数据分布加载数据import warningswarnings原创 2021-05-22 11:41:51 · 145 阅读 · 0 评论 -
2021-05-12
集成学习-131. Stacking模型使用stacking 的一些注意事项1. Stacking模型针对上一章节Blending对数据集的处理的方法,我们知道:Blending在集成的过程中只会用到验证集的数据,对数据实际上是一个很大的浪费。为了解决这个问题,我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中,我们产生验证集的方式是使用分割的方式,产生一组训练集和一组验证集,这让我们联想到交叉验证的方式。顺着这个思路,我们对Stacking进行建模(如下图)stackin原创 2021-05-12 22:31:21 · 105 阅读 · 0 评论 -
2021-05-11
集成学习-121. 初识stacking2. Blending模型3. 总结与分析1. 初识stacking本章我们继续讨论集成学习方法的最后一个成员–Stacking。Stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成,第一层含有多个基础分类器,把预测的结果(元特征)提供给第二层, 而第二层的分类器通常是逻辑回归,他把一层分类器的结果当做特征做拟合输出预测结果。在介绍Stacking之前,我们先来对简化版的Stacking原创 2021-05-11 13:25:25 · 85 阅读 · 0 评论 -
2021-04-26
集成学习-11-XGBoost算法XGBoost算法简介XGBoost基础XGBoost模型构建XGBoost应用XGBoost算法简介XGBoost(eXtreme Gradient Boosting)极致梯度提升,是一种基于GBDT的算法或者说工程实现。XGBoost的基本思想和GBDT相同,但是做了一些优化,比如二阶导数使损失函数更精准;正则项避免树过拟合;Block存储可以并行计算等。XGBoost具有高效、灵活和轻便的特点,在数据挖掘、推荐系统等领域得到广泛的应用。XGBoost基础函原创 2021-04-26 22:29:33 · 84 阅读 · 0 评论 -
2021-04-21
集成学习-10-前向分步算法与梯度提升决策树前言1. 加法模型2. 前向分步算法三级目录前言回看Adaboost的算法内容,我们需要通过计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。1. 加法模型具体到在Adaboost模型中,我们把每个基本原创 2021-04-22 15:56:57 · 58 阅读 · 0 评论 -
2021-04-16
集成学习-task09-Boosting与Adaboost算法前言Boosting原理AdaBoost总结前言通过模型预测误差主要由两部分构成,偏差与方差。上一章节的学习我们了解到Bagging算法的思想实质上是主要通过降低方差的方式减少预测误差。而Boosting是从另外的与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过不断减少偏差的形式,这原创 2021-04-16 22:10:48 · 374 阅读 · 0 评论 -
2021-04-13
集成学习打卡-08Bagging (Bootstrap aggregating)Bagging 全称叫 Bootstrap aggregating,与投票法不同的是Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从上面提到的有较小的同质性假设。所采用的策略是每个基学习器都会对训练集进行有放回抽样得到子训练集(比较著名的采样法为 0.632 自助法增加模型的差异性。链接:https://zhuanlan.zhihu.com/p/86263786Baggin原创 2021-04-13 15:56:14 · 71 阅读 · 0 评论 -
2021-04-13
集成学习打卡-07投票法投票法的原理在之前章节中对模型的偏差-方差分解”说明:泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。在我们给定学习任务后,为了取得好的泛化性能,可以减小偏差拟合数据,同时可以降低方差,使得数据产生的扰动对模型影响小。投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。具体地投票法在回归模型与分类模型上均可使用:(1) 回归投票法:预测结果是所有模型预测结果的平均值。(2) 分类投票法:预测结果是原创 2021-04-13 15:45:59 · 774 阅读 · 1 评论 -
2021-03-31
集成学习-Task6度量模型性能的指标与贝叶斯优化调参概念介绍常用的评价指标贝叶斯超参数调优度量模型性能的指标与贝叶斯优化调参概念介绍度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同。那么怎么去评价分类模型,以及有哪些指标需要我们关注的呢。在正式介绍我们的分类模型之前有必要对一些概念进行简单的说明。假设现在已经训练好一个机器学习模型,模型是关原创 2021-03-31 20:14:56 · 209 阅读 · 0 评论 -
2021-03-30
集成学习-Task5使用sklearn构建完整的分类项目1.收集数据集并选择合适的特征2. 选择度量模型性能的指标:三级目录使用sklearn构建完整的分类项目1.收集数据集并选择合适的特征选择具体的模型并进行训练评估模型的性能并调参2. 选择度量模型性能的指标:度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同。那么怎么去评价分类模型原创 2021-03-31 15:41:27 · 364 阅读 · 0 评论