![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
集成学习
文章平均质量分 75
csdnshenjiaye
这个作者很懒,什么都没留下…
展开
-
Task15:集成学习案例二(蒸汽量预测)
集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份原创 2021-05-23 19:06:30 · 275 阅读 · 0 评论 -
Task12:Blending集成学习算法
Uniform Blending(均匀融合)这一部分从误差的角度介绍最基本的Uniform Blending(均匀融合)的一些理论依据,Uniform Blending的分类的模型如下,实际上就是少数服从多数的原则:G(x)=sign(∑t=1T1⋅gt(x))G(x)=sign(∑t=1T1⋅gt(x))回归模型如下,直接求T个模型g的结果的平均值:G(x)=1T∑t=1T1⋅gt(x)G(x)=1T∑t=1T1⋅gt(x)下面以回归问题分析误差。预期g1,g2,⋯,g..原创 2021-05-12 00:24:20 · 273 阅读 · 0 评论 -
Task13:Stacking集成学习算法
一、概念理解Stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。Stacking 的基础层通常包括不同的学习算法,因此stacking ensemble往往是异构的。二、执行步骤假设有1000个样本,70%的样本作为训练集,30%的样本作为测试集。STEP1:在训练集上采用算法A、B、C等训练出一系列基学习器。STEP2:用这些基学习器的输出结果组成新的训练集,在其上训练一个元学习器(meta-classifier,通常原创 2021-05-12 00:20:04 · 375 阅读 · 0 评论 -
Task11:XGBoost算法分析与案例调参实例
一. 前言XGBoost是提升方法中的一个可扩展的机器学习系统。XGBoost在许多机器学习和数据挖掘问题中产生了广泛的影响。2015年发表在Kaggle竞赛的博客的29个冠军解决方案中,有17个是使用XGBoost解决的,其中有8个是仅使用了XGBoost方法去训练模型,剩余的是用XGBoost和其他模型相结合使用的。相比较而言,第二个受欢迎的方法是深度神经网络,有11个是使用该方法的。XGBoost成功的最重要因素就是它在任何场景下的可扩展性。XGBoost系统在单台机器上的运行速度比现有流行的解决转载 2021-04-27 00:05:59 · 529 阅读 · 0 评论 -
Task10:前向分布算法与梯度提升决策树
Adaboost算法的另一种解释Adaboost算法还有另一种解释,即:可以认为Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。前向分布算法在Adaboost算法中,我们的最终目的是通过构建弱分类器的线性组合:来得到最终分类器。而我们在看看加法模型:其中,...转载 2021-04-24 00:25:17 · 155 阅读 · 0 评论 -
Task09:Boosting的思路与Adboost算法
Adaboost思想AdaBoost是最著名的Boosting族算法。开始时,所有样本的权重相同,训练得到第一个基分类器。从第二轮开始,每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重,上一轮分错的样本权重提高,分对的样本权重降低。之后根据新得到样本的权重指导本轮中的基分类器训练,即在考虑样本不同权重的情况下得到本轮错误率最低的基分类器。重复以上步骤直至训练到约定的轮数结束,每一轮训练得到一个基分类器。可以想象到,远离边界(超平面)的样本点总是分类正确,而分类边界附近的样本点总是有大概率转载 2021-04-20 23:58:03 · 121 阅读 · 0 评论 -
Task08:Bagging的原理和案例分析
Bagging算法(英语:Bootstrapaggregating,引导聚集算法),又称装袋算法,是机器学习领域的一种团体学习算法。最初由Leo Breiman于1996年提出。Bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。简介Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(modelaveraging)。采...原创 2021-04-18 00:29:38 · 308 阅读 · 0 评论 -
Task7:投票法的思路
一、基础原理 在所有集成学习方法中,最直观的是多数投票。因为其目的是输出基础学习者的预测中最受欢迎(或最受欢迎)的预测。多数投票是最简单的集成学习技术,它允许多个基本学习器的预测相结合。与选举的工作方式类似,该算法假定每个基础学习器都是投票者,每个类别都是竞争者。为了选出竞争者为获胜者,该算法会考虑投票。将多种预测与投票结合起来的主要方法有两种:一种是硬投票,另一种是软投票。我们在这里介绍两种方法。 这种投票分类器往往比单个的最佳分类器获得更高的准确率。事实上,即使每个分类器都是一个弱的学习者(原创 2021-04-13 23:29:22 · 169 阅读 · 0 评论 -
Task6:掌握分类问题的评估及超参数调优
1.超参数简介1.1超参数的“学院派”定义在机器学习的过程中,超参= 在开始机器学习之前,就人为设置好的参数。模型参数=通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果1.2怎么决定超参数1. 定义关于模型的更高层次的概念,如复杂性或学习能力。2. 不能直接从标准模型培训过程中的数据中学习,需要预先定义。3. 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定1.3超参数的“通俗”定义超参数也是一种参数,原创 2021-03-28 16:52:07 · 708 阅读 · 0 评论 -
Task05:掌握基本的分类模型
1.常用的分类模型简介sklearn作为机器学习的集成包,囊括了很多常用的机器学习算法,贝叶斯,KNN,逻辑回归,随机深林,决策树,GBDT,SVM都被收录其中。其中KNN属于无监督学习模型,贝叶斯,逻辑回归,随机深林,决策树,GBDT,SVM均属于有监督学习模型。2.分类模型详解2.1.朴树贝叶斯朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(原创 2021-03-27 19:55:07 · 253 阅读 · 0 评论 -
task4:掌握回归模型的评估及超参数调优
1.常用的回归模型评估指标平均绝对误差 Mean Absolute Error(MAE)MAE用来描述预测值和真实值的差值。数值越小越好。假设????????是真实值,????????是相对应的预测值,则n个样本的MAE可由下式出给:????????????=1????∑????=1????|????????−????????|MAE优缺点:虽然平均绝对误差能够获得一个评价值,但是你并不知道这个值代表模型拟合是优还是劣,只有通过对比才能达到效果。均方误差 Mean Squared Err原创 2021-03-25 00:11:11 · 899 阅读 · 0 评论 -
task3:掌握偏差和方差理论
1、方差、偏差、噪声是什么?首先,我觉得需引出周志华《机器学习》对它们的定义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力。方差度量了同样大小的训练集的变动所导致的学习性能变化,即刻画了数据扰动所造成的影响。噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。在一开始学习的时候,偏差其实比较好理解,但方差一直云里雾里的,直到看到了西瓜书的定义,一下子就对方差的定义清晰了起来。要进一步理解,我觉得还是要看看它们的数学转载 2021-03-21 23:56:38 · 173 阅读 · 0 评论 -
task2:基本的回归模型
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小。1.线性回归线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式:y^为预测值,自变量x和因变量y是已知的,而我们想实现的是预测新增一个x,其对应的y是多少。因.原创 2021-03-18 00:00:17 · 121 阅读 · 0 评论 -
Task01:机器学习的三大主要任务
1.机器学习历史接触可挺久的机器学习了,这次有机会重头开始学习机器学习,感觉机器学习的发展史需要再梳理一下了机器学习阶段 年份 主要成果 代表人物 人工智能起源 1936 自动机模型理论 阿兰•图灵(Alan Turing) 1943 MP模型 沃伦•麦卡洛克(Warren McCulloch)、沃特•皮茨(WalterPitts) 1951 符号演算 冯• 诺依曼(John von Neumann) 1950 逻辑.原创 2021-03-16 00:02:56 · 199 阅读 · 0 评论