克莱蒂的青鸟-CSDN博客

原创 2021-10-11

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-10-12 22:02:52 122

原创 2021-05-22

集成学习-15数据探索数据分布模型构建以及集成学习数据探索锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。本次该案例是使用以上工业指标的特征，进行蒸汽量的预测问题。这部分的数据包括其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。需要说明的是目标量与上次不同，此次是连续的相应变量。数据分布加载数据import warningswarnings

2021-05-22 11:41:51 152

原创 2021-05-12

集成学习-131. Stacking模型使用stacking 的一些注意事项1. Stacking模型针对上一章节Blending对数据集的处理的方法，我们知道：Blending在集成的过程中只会用到验证集的数据，对数据实际上是一个很大的浪费。为了解决这个问题，我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中，我们产生验证集的方式是使用分割的方式，产生一组训练集和一组验证集，这让我们联想到交叉验证的方式。顺着这个思路，我们对Stacking进行建模(如下图)stackin

2021-05-12 22:31:21 111

原创 2021-05-11

集成学习-121. 初识stacking2. Blending模型3. 总结与分析1. 初识stacking本章我们继续讨论集成学习方法的最后一个成员–Stacking。Stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。在介绍Stacking之前，我们先来对简化版的Stacking

2021-05-11 13:25:25 92

原创 2021-04-26

集成学习-11-XGBoost算法XGBoost算法简介XGBoost基础XGBoost模型构建XGBoost应用XGBoost算法简介XGBoost（eXtreme Gradient Boosting）极致梯度提升，是一种基于GBDT的算法或者说工程实现。XGBoost的基本思想和GBDT相同，但是做了一些优化，比如二阶导数使损失函数更精准；正则项避免树过拟合；Block存储可以并行计算等。XGBoost具有高效、灵活和轻便的特点，在数据挖掘、推荐系统等领域得到广泛的应用。XGBoost基础函

2021-04-26 22:29:33 90

原创 2021-04-21

集成学习-10-前向分步算法与梯度提升决策树前言1. 加法模型2. 前向分步算法三级目录前言回看Adaboost的算法内容，我们需要通过计算M个基本分类器，每个分类器的错误率、样本权重以及模型权重。我们可以认为：Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来，我们抽象出Adaboost算法的整体框架逻辑，构建集成学习的一个非常重要的框架----前向分步算法，有了这个框架，我们不仅可以解决分类问题，也可以解决回归问题。1. 加法模型具体到在Adaboost模型中，我们把每个基本

2021-04-22 15:56:57 63

原创 2021-04-16

集成学习-task09-Boosting与Adaboost算法前言Boosting原理AdaBoost总结前言通过模型预测误差主要由两部分构成，偏差与方差。上一章节的学习我们了解到Bagging算法的思想实质上是主要通过降低方差的方式减少预测误差。而Boosting是从另外的与Bagging截然不同的思想，Boosting方法是使用同一组数据集进行反复学习，得到一系列简单模型，然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然，Boosting思想提高最终的预测效果是通过不断减少偏差的形式，这

2021-04-16 22:10:48 386

原创 2021-04-13

集成学习打卡-08Bagging (Bootstrap aggregating)Bagging 全称叫 Bootstrap aggregating，与投票法不同的是Bagging不仅仅集成模型最后的预测结果，同时采用一定策略来影响基模型训练，保证基模型可以服从上面提到的有较小的同质性假设。所采用的策略是每个基学习器都会对训练集进行有放回抽样得到子训练集（比较著名的采样法为 0.632 自助法增加模型的差异性。链接：https://zhuanlan.zhihu.com/p/86263786Baggin

2021-04-13 15:56:14 79

原创 2021-04-13

集成学习打卡-07投票法投票法的原理在之前章节中对模型的偏差-方差分解”说明：泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。在我们给定学习任务后，为了取得好的泛化性能，可以减小偏差拟合数据，同时可以降低方差，使得数据产生的扰动对模型影响小。投票法是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高模型的鲁棒性。具体地投票法在回归模型与分类模型上均可使用：(1) 回归投票法：预测结果是所有模型预测结果的平均值。(2) 分类投票法：预测结果是

2021-04-13 15:45:59 794 1

原创 2021-03-31

集成学习-Task6度量模型性能的指标与贝叶斯优化调参概念介绍常用的评价指标贝叶斯超参数调优度量模型性能的指标与贝叶斯优化调参概念介绍度量分类模型的指标和回归的指标有很大的差异，首先是因为分类问题本身的因变量是离散变量，因此像定义回归的指标那样，单单衡量预测值和因变量的相似度可能行不通。其次，在分类任务中，我们对于每个类别犯错的代价不尽相同。那么怎么去评价分类模型，以及有哪些指标需要我们关注的呢。在正式介绍我们的分类模型之前有必要对一些概念进行简单的说明。假设现在已经训练好一个机器学习模型，模型是关

2021-03-31 20:14:56 217

原创 2021-03-30

集成学习-Task5使用sklearn构建完整的分类项目1.收集数据集并选择合适的特征2. 选择度量模型性能的指标：三级目录使用sklearn构建完整的分类项目1.收集数据集并选择合适的特征选择具体的模型并进行训练评估模型的性能并调参2. 选择度量模型性能的指标：度量分类模型的指标和回归的指标有很大的差异，首先是因为分类问题本身的因变量是离散变量，因此像定义回归的指标那样，单单衡量预测值和因变量的相似度可能行不通。其次，在分类任务中，我们对于每个类别犯错的代价不尽相同。那么怎么去评价分类模型

2021-03-31 15:41:27 380

原创 2021-03-24

集成学习4-对模型超参数进行调优什么是超参数在对模型进行超参数调优之前我们需要明白两个基本的概念超参数和参数比如说岭回归中参数 λ和参数w之间有什么不一样？事实上，参数w是我们通过设定某一个具体的 λ 后使用类似于最小二乘法、梯度下降法等方式优化出来的，我们总是设定了 λ是多少后才优化出来的参数w。因此，类似于参数w一样，使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数，类似于 λ一样，我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为超参数。模型参数是模型内部的

2021-03-24 22:27:58 84

原创 2021-03-22

这里写目录标题集成学习-打卡task3优化基础模型优化什么（目的）怎么优化（过程）集成学习-打卡task3优化基础模型优化什么（目的）在回归模型中我们常用MSE均方误差来对模型进行评价。其中 f̂ (xi) 是样本 xi 用建立的模型 f̂ 预测的结果。而当我们训练好模型后，我们会遇到一个问题：模型在训练误差很小，但是测试均方误差很大时，产生这种情况的原因通常是模型出现了过拟合。而模型中的测试均方误差曲线是呈现U型曲线的如下图所示。图片来源于https://github.com/datawh

2021-03-22 18:51:32 128

原创 2021-03-18

这里写目录标题集成学习打卡-taks2常见的回归模型线性回归模型-最小二乘估计SVR集成学习打卡-taks2常见的回归模型常见的回归模型有线性回归模型、回归树、SVR等多种模型。他们的核心均是使得预测值更加的去接近真实值，通过调参数使得模型的误差值更小。线性回归模型-最小二乘估计线性回归模型是一种最简单的模型其假设目标值与特征之间线性相关，即满足一个多元一次方程。通过构建损失函数，来求解损失函数最小时的参数w。本次学习中采用的是最小二乘估计。几何解释：将样本预测的误差分散在整个数据集上。另外

2021-03-18 21:19:04 84

原创 2021-03-15

集成学习打卡第一天

2021-03-15 22:46:53 53

原创图神经网络之GCN

图神经网络之GCN写在前面GCN VS 传统 CNN （Convolution 网络）(1) 导出对于图像的像素点来说，它的周围像素点数量其实是固定的；(2) 导出但是对于图而言，节点的邻居数量是不固定的。![万物皆可图](https://img-blog.csdnimg.cn/20201128114405851.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4

2020-11-28 22:38:10 378

viras的博客

原创 2021-10-11

原创 2021-05-22

原创 2021-05-12

原创 2021-05-11

原创 2021-04-26

原创 2021-04-21

原创 2021-04-16

原创 2021-04-13

原创 2021-04-13

原创 2021-03-31

原创 2021-03-30

原创 2021-03-24

原创 2021-03-22

原创 2021-03-18

原创 2021-03-15

原创图神经网络之GCN

空空如也

空空如也