机器学习
文章平均质量分 94
机器学习
Grateful_Dead424
这个作者很懒,什么都没留下…
展开
-
XGBoost核心讲解笔记(贪心学院)
Bagging和Boosting对比老师的PPT中对比了 Bagging 和 Boosting 两种常用的集成学习方法。Bagging:利用多个过拟合的弱学习器来获得更好的效果。典型的算法有随机森林。(请了很多专家回答问题,一起讨论争论)Boosting:利用多个欠拟合的弱学习器来获得更好的效果。典型的算法有GBDT/GBRT,Adaboost,XGBoost和LightGBM。(请了一群小学生回答问题)Bagging像是随机森林,这种bagging系的算法,它们的思想是训练多个模型每个原创 2022-01-07 17:52:41 · 1668 阅读 · 0 评论 -
Lesson 8.1&Lesson 8.2 决策树的核心思想与建模流程&CART分类树的建模流程与sklearn评估器参数详解
Lesson 8.1 决策树的核心思想与建模流程从本节课开始,我们将介绍经典机器学习领域中最重要的一类有监督学习算法——树模型(决策树)。可此前的聚类算法类似,树模型也同样不是一个模型,而是一类模型的概称。树模型不仅运算效率高、模型判别能力强、而且原理简单过程清晰、可解释性强,是机器学习领域内为数不多的“白箱模型”。并且就树模型本身的功能来说,除了能够同时进行分类和回归预测外,还能够产出包括特征重要性、连续变量分箱指标等重要附加结论,而在集成学习中,最为常用的基础分类器也正是树模型。正是这些优势,使得树原创 2022-01-18 11:49:17 · 1659 阅读 · 0 评论 -
Adaboost原理
Adaboost介绍AdaBoost算法与Boosting算法不同,它是使用整个训练集来训练弱学习器,其中训练样本在每次迭代的过程中都会重新被赋予一个权重,在上一个弱学习器错误的基础上进行学习来构建一个更加强大的分类器。下面通过一个图来了解AdaBoost算法的工作过程。Adaboost算法分析从图1.1中,我们可以看到adaboost的一个详细的算法过程。Adaboost是一种比较有特点的算法,可以总结如下:每次迭代改变的是样本的分布,而不是重复采样(re weight)样本分布的改变取决原创 2022-01-24 12:44:02 · 1908 阅读 · 0 评论 -
LESSON 12.8 原理进阶 (1):GBDT数学流程与残差概念辨析
四 原理进阶:GBDT的求解流程1 GBDT的基本数学流程作为当代众多经典算法的基础,GBDT的求解过程可谓十分精妙,它不仅开创性地舍弃了使用原始标签进行训练的方式,同时还极大地简化了Boosting算法的运算流程,让Boosting算法本该非常复杂的运算流程变得清晰简洁。当我们学过完整的AdaBoost流程后,我们会发现GBDT的数学流程非常简明、美丽,同时这一美丽的流程也是我们未来所有Boosting高级算法的数学基础。与任意Boosting算法一致,对GBDT我们需要回答如下问题:损失函数L(原创 2022-01-26 01:54:55 · 888 阅读 · 0 评论 -
GBDT原理
梯度提升树的使用GBDT算法流程GBDT流程输入:训练数据集D={(x1,y1),(x2,y2),…,(xN,yN)}D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\}D={(x1,y1),(x2,y2),…,(xN,yN)}1.初始化f0(x)=0f_{0}(x) = 0f0(x)=02.For m=1,2,…,Mm=1,2,原创 2022-01-26 16:45:27 · 1129 阅读 · 1 评论 -
特征选择(feature_selection)
特征选择当数据预处理完成后,我们就要开始进行特征工程了。在做特征选择之前,有三件非常重要的事:跟数据提供者开会!跟数据提供者开会!跟数据提供者开会!一定要抓住给你提供数据的人,尤其是理解业务和数据含义的人,跟他们聊一段时间。技术能够让模型起飞,前提是你和业务人员一样理解数据。所以特征选择的第一步,其实是根据我们的目标,用业务常识来选择特征。来看完整版泰坦尼克号数据中的这些特征:其中是否存活是我们的标签。很明显,以判断“是否存活”为目的,票号,登船的舱门,乘客编号明显是无关特征,可以直接删除。姓名原创 2022-02-15 02:16:26 · 5117 阅读 · 0 评论 -
特征衍生模块封装与功能优化
五、特征衍生模块封装与功能优化 为了方便后续调用此前定义的一系列种类繁多的特征衍生方法,我们考虑将所有的函数代码封装到一个名叫“feature_creation”的模块中,同时后续所有和特征衍生相关的代码也将一并写入该模块内。1.特征衍生模块封装模块代码结构 从一个更标准模块定义角度考虑,我们首先在模块的开头进行必要的标注,包括模块编译环境、编码格式、模块内容说明、以及作者和版本号等:然后进入到代码部分。这里需要注意的是,由于我们会将所有的代码写到一个模块内,而不同的函数彼此之间会存在相原创 2022-04-04 15:33:52 · 2634 阅读 · 0 评论 -
时间序列模型简介
时间序列模型简介 尽管此前我们已经用到了time series这个专业名词,但我们对时序特征进行的处理,并不是time series这个专业名词所代表的真正含义,既时间序列。尽管本阶段我们并不会讲解时间序列模型,但既然讨论了时序特征,对时间序列略加了解,也是能够增加对时序特征处理方法理解的。因此以下部分作为补充内容,简单介绍下到底什么是时间序列模型。注,此处仅对时间序列分析模型进行简单介绍,而时间序列分析模型本身也只是针对时序数据进行分析的诸多模型中的一种,其他能够进行时序规律挖掘的模型还包括RNN原创 2022-03-15 15:52:30 · 8597 阅读 · 1 评论