集成学习
文章平均质量分 94
蜗牛海胆
蜗牛吃了海胆,会不会非常大胆
展开
-
Task15:集成学习案例二 (蒸汽量预测)
蒸汽量预测参考来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning转载 2021-05-22 15:42:30 · 320 阅读 · 0 评论 -
Task14:集成学习案例一 (幸福感预测)
幸福感预测背景介绍数据信息评价指标背景介绍幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异,大如国计民生,小如路边烤红薯,都会对幸福感产生影响。这些错综复杂的因素中,我们能找到其中的共性,一窥幸福感的要义吗?该案例为幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。具体来说,该案例就是一个数据挖掘类型的比赛——幸福感预测的baseline。具体来说,我们需要使用包括个转载 2021-05-18 10:41:01 · 584 阅读 · 0 评论 -
集成学习Task13 Stacking集成学习算法
Stacking1. 算法原理2. 代码实现1. 算法原理2. 代码实现原创 2021-05-13 10:40:29 · 545 阅读 · 1 评论 -
集成学习Task12 Blending集成学习算法
文章目录1. 引言2. Blending 集成学习算法3. 人工数据代码实现4. 鸢尾花数据代码实现参考来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1. 引言先引用大佬的一个例子来简单介绍一下blending的思想。这是一个上课的例子,学生E不会做题,于是同学们都来帮忙。如图可以看到,首先是A和B同学进行计算,他俩计算的结果其实和真实值有一些差距。之后他们将自己的原创 2021-05-10 16:30:56 · 306 阅读 · 0 评论 -
Task11 XGBoost算法分析与案例调参实例
文章目录转载 2021-04-26 16:35:37 · 103 阅读 · 0 评论 -
task10前向分步算法与梯度提升决策树
文章目录原创 2021-04-23 23:18:12 · 100 阅读 · 0 评论 -
task9 集成学习之boosting的思路与adaboost算法
文章目录1.Boosting1.1 Bagging与Boosting1.2 Boosting理论基础1.3 Boosting原理2. Adaboost算法的原理3. Adaboost算法实现Boosting的思路与Adaboost算法前向分步算法与梯度提升决策树(GBDT)XGBoost算法与xgboost库的使用Xgboost算法案例与调参实例LightGBM算法的基本介绍参考来源:https://github.com/datawhalechina/team-learning-data-原创 2021-04-20 17:53:17 · 181 阅读 · 0 评论 -
task8 Bagging的原理和案例分析
文章目录1. bagging原理1.1 bootstrap sampling自助采样1.2 bagging1.3 随机森林2. bagging的案例分析1. bagging原理1.1 bootstrap sampling自助采样自助法(bootstrap)的一个通俗的解释为:有放回抽样。bootstrap的过程为,对于包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重原创 2021-04-14 11:10:11 · 114 阅读 · 0 评论 -
集成学习task7 投票法的原理和案例分析
文章目录1. 集成学习2. 投票法的思路3. 投票法的原理4. 投票法的案例分析参考来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearninghttps://zhuanlan.zhihu.com/p/27689464《机器学习》,周志华 ,清华大学出版社1. 集成学习在上一期组队学习关于深度学习推荐系统的过程中我们发现,很多推荐系统都使用了几个不同模型的组合用于处理原创 2021-04-12 17:44:59 · 478 阅读 · 0 评论 -
Datawhale第23期组队学习—集成学习—task6 模型评估与超参数调优
文章目录1.k折交叉验证2. 偏差与方差3. 混淆矩阵与ROC曲线4. 超参数调优参考来源:1. https://zhuanlan.zhihu.com/p/1400407052. https://blog.csdn.net/teng_zz/article/details/980277121.k折交叉验证所谓K折交叉验证,就是将数据集等比例划分成K份。将其中的k-1份作为训练集,剩余1份作为测试集。用k-1份数据训练出的模型预测值与剩余的1份样本测试值进行对比,得出均方误差大小。之后将第2份数据作为测原创 2021-03-29 21:37:09 · 149 阅读 · 0 评论 -
Datawhale第23期组队学习—集成学习—task5 掌握基本的分类模型
基本分类模型1. 引言1.1 收集数据集1.2 选择度量模型性能的指标1.3 选择具体的模型进行训练2. 朴素贝叶斯3. 决策树(CART)4. 支持向量机SVM参考来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1. 引言在分析完波士顿房价数据之后,我们来看一下一开始提到的另一个经典数据集:鸢尾花数据。1.1 收集数据集从sklearn中导入数据集:原创 2021-03-28 00:06:09 · 129 阅读 · 1 评论 -
Datawhale第23期组队学习—集成学习—task4—掌握回归模型的评估及超参数调优
参数与超参数参考来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning/CH2-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E6%A8%A1%E5%9E%8B%E5%9B%9E%E9%A1%BE模型参数模型参数是模型内部的配置变量,其值可以根据数据进行估计。它们的值定义了可使用的模型模型在进行预测时需要它原创 2021-03-24 14:44:30 · 141 阅读 · 0 评论 -
Datawhale第23期组队学习—集成学习—task3—掌握偏差与方差理论
优化基础模型1. 引言2. 训练均方误差与测试均方误差3. 偏差-方差的权衡3.1 模型的方差3.2 模型的偏差3.3 偏差与方差的权衡4. 特征提取4.1 测试误差估计4.2 特征选择5. 压缩估计(正则化)5.1 岭回归(L2正则化的例子)5.2 Lasso回归(L1正则化的例子)6. 降维1. 引言在回归问题的基本算法中,通常使用数据集去估计模型的参数,使生成的模型尽量去估计数据集中所有的数据。对于用于生成训练模型参数的数据集称为训练集。在训练集中训练模型,通常都是会让生成的模型尽可能拟合训练数原创 2021-03-22 22:25:44 · 181 阅读 · 0 评论 -
Datawhale第23期组队学习—集成学习—task2—基本回归模型
目录1.基本回归模型1.1 偏差与方差1.1.1 偏差1.1.2 方差1.2 回归模型的评估及超参数调优1.2.1 回归模型的评估1.2.2 超参数调优1.3 线性回归1.3.1 基本概念1.3.2 模型评估1.3.3 超参数调优1.3.4 线性回归的推广(非线性回归模型)1.3.4.1 多项式回归1.3.4.2 广义可加模型(GAM)1.2 回归树1.3 支持向量机回归(SVR)2. 基本分类模型2.12.22.3 逻辑回归(logistic regression)2.4 朴素贝叶斯2.5 决策树2.6原创 2021-03-18 16:15:09 · 203 阅读 · 0 评论 -
Datawhale第23期组队学习—集成学习—task1—回归、分类、无监督学习
文章内容参考:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1.0 机器学习:机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,用????????来表示一个样本,其中????=1,2,3,...,????,共N个样本,每个样本????????=(????????1,????原创 2021-03-15 18:53:11 · 309 阅读 · 1 评论