- 博客(23)
- 资源 (1)
- 收藏
- 关注
原创 集成学习案例二(蒸汽量预测)
1. 背景介绍 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量呢?所
2021-05-23 22:47:11 875
原创 集成学习案例一 (幸福感预测)
1. 背景介绍 幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异,大如国计民生,小如路边烤红薯,都会对幸福感产生影响。这些错综复杂的因素中,我们能找到其中的共性,一窥幸福感的要义吗? 另外,在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策
2021-05-18 22:04:46 385
原创 集成学习之Stacking
1. 基本概念 模型堆叠是一种数据科学基础方法,它依赖于多个模型的结果,即将多个弱学习器的结果进行组织,往往胜过单一的强模型。过去几年中大多数主要 kaggle 比赛的获胜者在最终获奖模型中都使用了模型堆叠。 堆叠模型类比于现实世界的例子,就比如商业团队,科学实验,或者体育团队。如果团队中的所有成员都非常擅长完成同样的任务,那么团队就会摧毁任何需要这个任务的挑战。 Stacking有“堆叠”的意思。从字面意思理解,Stacking方法就是将多个模型(同一层),进
2021-05-13 14:25:43 11485 2
原创 集成学习之Blending
1.Blending Blending将训练数据进行划分,划分之后的训练数据一部分训练基模型,一部分经模型预测后作为新的特征训练元模型。测试数据同样经过基模型预测,形成新的测试数据。最后,元模型对新的测试数据进行预测。算法的具体执行过程如下:(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的,这些模型可称为基模型(3) 使用train_s
2021-05-11 23:45:17 355
原创 集成学习值Boosting(三)
1. XGBoost XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量的Kaggle选手选用XGBoost进行数据挖掘比赛,是各大数据科学比赛的必杀武器;在工业界大规模数据方面,XGBoost的分布式版本有广泛的可移植性,支持在Kubernet
2021-04-25 23:09:43 285
原创 集成学习之Boosting(二)
1. 前向分布算法1.1 加法模型考虑加法模型(additive model)f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)f(x)=m=1∑Mβmb(x;γm)其中, b(x;γm)b\left(x ; \gamma_{m}\right)b(x;γm) 为基函数, γm\gamma_{m}γm 为基函数的参数, βm\beta_{m}βm 为基函数的系数。显然,上式是一个加法
2021-04-23 19:59:23 137
原创 集成学习之Boosting(一)
1.BoostingBoosting 是个非常强大的学习方法, 它也是一个监督的分类学习方法。它组合许多“弱”分类器来产生一个强大的分类器组。一个弱分类器的性能只是比随机选择好一点,因此它可以被设计的非常简单并且不会有太大的计算花费。将很多弱分类器结合起来组成一个集成的类似于SVM或者神经网络的强分类器。2. 基本思路 Boosting的提出与发展离不开Valiant和 Kearns的努力,历史上正是Valiant和 Kearns提出了"强可学习"和"弱可学习"的概念。那什么是"强
2021-04-20 21:30:48 555
原创 集成学习之Bagging
1.集成学习 集成学习是一种机器学习范式。在集成学习中,我们会训练多个模型(通常称为**「弱学习器」**)解决相同的问题,并将它们结合起来以获得更好的结果。最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。 在集成学习理论中,我们将弱学习器(或基础模型)称为「模型」,这些模型可用作设计更复杂模型的构件。在大多数情况下,这些基本模型本身的性能并不是非常好,这要么是因为它们具有较高的偏置(例如,低自由度模型),要么是因为他们的方差太大导致鲁棒性不
2021-04-16 22:59:05 1886
原创 集成学习之投票法
1. 定义投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。投票法在回归模型与分类模型上均可使用:回归投票法:预测结果是所有模型预测结果的平均值。分类投票法:预测结果是所有模型种出现最多的预测结果。2. 分类对分类任务来说, 学习器 hih_{i}hi 将从类别标记集合 $ \left{c_{1}, c_{2}, \ldots, c_{N}\right} $ 中预测出一 个标
2021-04-13 17:28:55 3446
原创 4.机器学习基础(四)
1. 分类模型的评估1.1 评估方法1.1.1 留出法 “留出法” ( hold-out)直接将数据集 DDD 划分为两个互斥的集合,其中一个集合作为训练集 SSS ,另一个作为测试集 TTT ,即 D=S∪T,S∩T=∅D = S \cup T , S\cap T =\varnothingD=S∪T,S∩T=∅。在 SSS 上训练出模型后,用TTT 来评估其测试误差,作为对泛化误差的估计.以二分类任务为例,假定包含 1000 个样本,将其划分为 SSS包含 700 个样本, TTT包
2021-03-29 17:34:30 273
原创 3.机器学学习基础(三)
1. 分类1.1 度量分类模型的指标 评价分类器性能的指标一般是分类的准确率,其定义是对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。 对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)。通常以关注的类为正类(positive),其他类为负类(negative),分类器在测试数据集上的预测或正确或不正确,四种情况出现的总数分别记作:True Positive: 若一个实例是正类,并且被预测为正类,即为真正类TP(真阳性)
2021-03-27 20:49:26 236
原创 机器学习基础(三)
1调参 我们很自然的问题就是岭回归中的参数????和参数w之间有什么不一样?事实上,参数w是我们通过设定某一个具体的????后使用类似于最小二乘法、梯度下降法等方式优化出来的,我们总是设定了????是多少后才优化出来的参数w。因此,类似于参数w一样,使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数,类似于????一样,我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为超参数。模型超参数是模型外部的配置,其值无法从数据中估计。模型参数是模型内部的配置变量,其
2021-03-24 22:11:47 726
原创 1.机器学习基础
1. 导论 什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)xi=(xi1,xi2,...,xip,yi)共
2021-03-17 08:54:15 327
原创 SVN设置提交忽略文件
第一种方式第二种方式在项目根目录空白处右键点击TortoiseSVN →\rightarrow→ Properties选择svn:global-ignores ,global代表全局,子目录会继承这个忽略配置输入要忽略的文件target.idea.settings.project*.iml*.log.classpath点击OK后会看到最终的配置...
2020-06-03 15:29:53 556
原创 Comparator排序
java中的Lambad排序Comparator排序列表排序根据对象中的某个属性排序列表排序 正排:list.sort(Comparator.naturalOrder()) 倒排:list.sort(Comparator.reverseOrder())根据对象中的某个属性排序list.sort(Comparator.comparing(WorkOrderAssemble::getEndTim
2017-09-29 16:49:53 609
原创 变量和数据类型
一、标识符1、作用 给变量、类和方法命名2、Java标识符命名规则标识符必须以字母、下划线、美元符$开头标识符其他部分可以是字母、下划线、美元符和数字的任意组合。Java语言对字母大小写有严格要求,必须区分大小写标识符长度无限制,命名最好反应其作用标识符不可以是Java关键字
2017-01-15 20:40:59 180
原创 一只小蜜蜂
Problem Description有一只经过训练的蜜蜂只能爬向右侧相邻的蜂房,不能反向爬行。请编程计算蜜蜂从蜂房a爬到蜂房b的可能路线数。其中,蜂房的结构如下所示。Input输入数据的第一行是一个整数N,表示测试实例的个数,然后是N 行数据,每行包含两个整数a和b(0Output对于每个测试实例,请输出蜜蜂从蜂房a爬到蜂房b的可能路线数,每个
2014-02-20 11:15:17 457
原创 Elevator
Problem DescriptionThe highest building in our city has only one elevator. A request list is made up with N positive numbers. The numbers denote at which floors the elevator will stop, in specifie
2014-02-20 10:53:23 433
原创 Let The Ballon Raise
Problem DescriptionContest time again! How excited it is to see balloons floating around. But to tell you a secret, the judges' favorite time is guessing the most popular problem. When the contest
2014-02-20 10:25:21 650
原创 成绩转换
Problem Description输入一个百分制的成绩t,将其转换成对应的等级,具体转换规则如下:90~100为A;80~89为B;70~79为C;60~69为D;0~59为E;Input输入数据有多组,每组占一行,由一个整数组成。Output对于每组输入数据,输出一行。如果输入数据不在0~100范围内,请输出一行
2014-02-19 16:12:23 796
原创 三角形
Problem Description给定三条边,请你判断一下能不能组成一个三角形。Input输入数据第一行包含一个数M,接下有M行,每行一个实例,包含三个正数A,B,C。其中A,B,C Output对于每个测试实例,如果三条边长A,B,C能组成三角形的话,输出YES,否则NO。Sample Input
2014-02-19 15:40:07 579
原创 绝对值排序
Problem Description输入n(n Input输入数据有多组,每组占一行,每行的第一个数字为n,接着是n个整数,n=0表示输入数据的结束,不做处理。 Output对于每个测试实例,输出排序后的结果,两个数之间用一个空格隔开。每个测试实例占一行。 Sample Input3 3 -
2014-02-18 17:40:47 973
原创 求奇数的乘积
描述给你n个整数,求他们中所有奇数的乘积。输入输入数据包含多个测试实例,每个测试实例占一行,每行的第一个数为n,表示本组数据一共有n个,接着是n个整数,你可以假设每组数据必定至少存在一个奇数。输出输出每组数中的所有奇数的乘积,对于测试实例,输出一行。样例输入3 1 2 34 2 3 4 5样例输出315代码:
2014-02-18 16:01:07 588
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人