机器学习
文章平均质量分 93
꧁ᝰ苏苏ᝰ꧂
这个作者很懒,什么都没留下…
展开
-
机器学习(下)-案例分析2 :蒸汽量预测
案例二 :蒸汽量预测背景介绍火力发电的基本原理:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多:锅炉的可调参数:如燃烧给量,一二次风,引风,返料风,给水水量;锅炉的工况:比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量呢?由于信息安全等原因,我们使用的是经脱敏后翻译 2021-05-21 14:37:17 · 1110 阅读 · 0 评论 -
机器学习(下)-案例分析1 :幸福感预测
案例一 (幸福感预测)背景介绍幸福感涉及了哲学、心理学、社会学、经济学等多方学科,同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,找到影响幸福感的政策因素,便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。具体来说,我们需要使用包括个体变量(性别、年龄、地域、职业、健翻译 2021-05-17 11:00:23 · 1764 阅读 · 1 评论 -
机器学习(下)-blending集成学习算法
一、 Stacking集成学习算法基于Blending集成学习算法可知,它在集成的过程中只会用到验证集的数据,对数据实际上是一个很大的浪费。如何解决这个问题呢?首先了解Blending产生验证集的方式,是使用分割的方式,产生一组训练集和一组验证集,这让我们联想到交叉验证的方式。顺着这个思路,我们对Stacking进行建模(如下图):首先将所有数据集生成测试集和训练集(假如训练集为10000,测试集为2500行),那么上层会进行5折交叉检验,使用训练集中的8000条作为训练集,剩余2000行作为验证翻译 2021-05-12 09:39:13 · 1037 阅读 · 0 评论 -
机器学习(下)-blending集成学习算法
一、导言前面学习了关于强化回归和分类算法的集成学习方法–Bagging和Boosting。现继续讨论集成学习方法的最后一个成员–Stacking(“懒人”算法),无需花费过多时间调参就可以得到一个效果不错的算法,且易于理解。Stacking严格来说并不是一种算法,而是对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成:第一层:含有多个基础分类器,把预测的结果(元特征)提供给第二层;第二层:把一层分类器的结果当做特征做拟合输出预测结果(分类器通常是逻辑回归)。在介绍Stacki翻译 2021-05-11 09:53:50 · 360 阅读 · 0 评论 -
机器学习(中) -XGBoost算法分析与案例调参实例
六、XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted,包括前面说过,两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBo翻译 2021-04-26 11:48:19 · 1029 阅读 · 0 评论 -
机器学习(中) -前向分步算法与阶梯提升决策树
四、前向分步算法在Adaboost算法中,最终目的是通过计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。每次学习单一分类器以及单一分类器的参数(权重)。它还有另一种解释,即:认为Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,既可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adaboost模型中,我们把每个基翻译 2021-04-20 17:05:39 · 248 阅读 · 0 评论 -
机器学习(中)-boosting原理+思路+案例
一. 导论bagging和boosting两者比较相似之处:Bagging套袋法实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。不同之处:Bagging套袋法 → 通过降低方差的方式减少预测误差;Boosting方法 → 使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。最终预测效果的提高是通过不断减少偏差。1.Boosting和Bagg翻译 2021-04-19 11:43:59 · 5005 阅读 · 0 评论 -
机器学习(中)-bagging套袋法原理+思路+案例
一、bagging套袋法的原理分析Bagging(套袋法)的核心在于自助采样(bootstrap)/随机采样这一概念,即从数据集中进行有放回采样,也就是说,同样的一个样本可能被多次进行采样。举例说明:估计全国所有人口年龄的平均值:可在全国所有人口中随机抽取不同的集合(这些集合可能存在交集),计算每个集合的平均值,然后将所有平均值的均值作为估计值。Bagging的基本流程:首先随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终可获得一个大小为K的样本集合。同样的方法,也翻译 2021-04-14 13:40:38 · 4712 阅读 · 0 评论 -
机器学习(中)-投票法原理+思路+案例
一、投票法的原理投票法(voting)是集成学习里面针对分类问题的一种结合策略。是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的 鲁棒性 (算法对数据变化的容忍度有多高)。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。投票法在回归模型与分类模型上均可使用:回归投票法:预测结果是所有模型预测结果的平均值。分类投票法:预测结果是所有模型种出现最多的预测结果。分类的机器学习算法输出有两种类型:直接输出类标签输出类概率"直接输出类标签"进翻译 2021-04-13 11:28:57 · 13839 阅读 · 1 评论 -
机器学习(上)-分类项目如何调参
分类项目评估模型的性能并调参:更详细的可以查看笔者的知乎:https://zhuanlan.zhihu.com/p/1400407# 导入基础包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt %matplotlib inline plt.style.use("ggplot") import seaborn as sns# 导入dataset 鸢尾花包from sklearn import da翻译 2021-03-29 17:34:41 · 412 阅读 · 0 评论 -
机器学习(上)-用sklearn构建完整的分类项目
如何用sklearn构建完整的分类项目第一步:收集数据集并选择合适的特征:# 导入基础包import pandas as pdimport numpy as np# 导入机器学习相关包和 IRIS鸢尾花数据集from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns翻译 2021-03-24 14:10:39 · 282 阅读 · 0 评论 -
机器学习(上)-如何对模型超参数进行调参
模型调参的方法有哪些?①直接对模型算法本身改进。 比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,在L2正则化中参数λ\lambdaλ应该选择多少?是0.01、0.1、还是1?很多都是靠经验或者瞎猜,如何找到最优的参数λ\lambdaλ?(本质就是最优化的内容)一般算法无非就是:梯度下降法、牛顿法等无约束优化算法或者约束优化算法。②对超参数进行调参。参数与超参数:岭回归中的参数λ\lambdaλ和参数w之间有什么不一样?参数w是通过设定某翻译 2021-03-22 11:54:12 · 2239 阅读 · 0 评论 -
机器学习(上)-优化基础模型
1. 优化基础模型回归的基本算法是使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。在训练过程中,一般会将损失函数在训练集达到最小值,实际问题往往会让损失函数在训练集最小化为0。如:在线性回归中,加入非常多的高次项,使模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。这个时候也不代表模型可以预测任意情况,因为模型的初衷是为了探索未知/情况复杂的测试数据集(未出现在训练集的未知数据),简称测试集,让其达到最优。(e翻译 2021-03-18 11:36:43 · 406 阅读 · 0 评论 -
机器学习-前期知识储备
1. 什么是机器学习?机器学习:利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)xi=(xi1,xi2,...,xip,yi)共p+1个维度,前p个维度的每个维度我们原创 2021-03-15 16:47:24 · 518 阅读 · 0 评论 -
机器学习(上)-回归模型
1. sklearn构建完整的机器学习项目流程详解一般来说,一个完整的机器学习项目分为以下步骤:第一步:明确项目任务:回归/分类。第二步:收集数据集并选择合适的特征。第三步:选择度量模型性能的指标。第四步:选择具体的模型并进行训练以优化模型。第五步:评估模型的性能并调参。1.1 sklearn构建完整的“回归”项目(第一步)# 引入相关科学计算包import numpy as npimport pandas as pdimport matplotlib.pyplot as pl翻译 2021-03-16 16:13:04 · 220 阅读 · 0 评论