等等党-CSDN博客

原创 2021-04-20

集成学习（中）Task09——Boosting1 导论2 Boosting方法的基本思路3 Adaboost算法4 使用sklearn对Adaboost算法进行建模1 导论在前面的学习中，我们探讨了一系列简单而实用的回归和分类模型，同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是：通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集，对不同的子集使用同一种基本模型进行拟合，然后投票得出最终的预测。我们也从前面的探讨知道：Bagging主要通过

2021-04-20 23:39:27 121

原创集成学习（上）Task06：评估模型的性能并调参

集成学习（上）Task06：评估模型的性能并调参1 使用网格搜索进行超参数调优1.1 方式1：网格搜索`GridSearchCV()`1.2 随机网格搜索`RandomizedSearchCV()`2 混淆矩阵3 绘制ROC曲线1 使用网格搜索进行超参数调优1.1 方式1：网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_t

2021-03-30 01:02:20 169

原创集成学习（上）Task05：掌握基本的分类模型

集成学习（上）Task05：掌握基本的分类模型1 度量分类模型性能的指标2 具体的分类模型2.1 Logistic模型2.2 基于概率的分类模型2.3 决策树2.4 支持向量机SVM3 利用`sklearn`构建完整的分类项目1 度量分类模型性能的指标度量分类模型的指标和度量回归模型的指标为什么会有差异？分类问题本身的因变量是离散变量，因此像定义回归的指标那样，单单衡量预测值和因变量的相似度可能行不通；在分类任务中，我们对于每个类别犯错的代价不尽相同。度量分类模型性能的指标是什么？（1）基

2021-03-28 00:55:03 194

原创集成学习（上）Task04：掌握回归模型的评估及超参数调优

集成学习（上）Task04：掌握回归模型的评估及超参数调优1 问题的提出2 参数与超参数3 如何求解最优的参数与超参数？4 看几个具体的例子1 问题的提出岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是，在L2正则化中参数λ\lambdaλ应该选择多少？能不能找到一种方法找到最优的参数λ\lambdaλ？事实上，找到最佳参数的问题本质上属于最优化的内容，因为从一个参数集合中找到最佳的值本身就是最优化的任务之一，我们脑海中浮现出来的算法无非就是：梯度下降法、

2021-03-24 22:27:09 158

原创集成学习（上）Task03：掌握偏差与方差理论

集成学习（上）Task03：掌握偏差与方差理论1 偏差-方差的权衡1.1 背景1.2 偏差-方差权衡的理论基础1.3 偏差-方差平衡的具体方法1.3.1 特征提取法1.3.2 压缩估计法1.3.3 降维的方法引入偏差和方差理论的背景：我们希望建立的机器学习模型在测试数据上表现优异，而不是训练集。1 偏差-方差的权衡1.1 背景当我们的模型的训练均方误差达到很小时，测试均方误差反而很大【过拟合】。下面用一张图说明问题：1.2 偏差-方差权衡的理论基础从上图的测试均方误差曲线可以看到：测试均方

2021-03-23 01:58:00 306

翻译 Task02加篇1——小白理解决策树

Task02加篇1——小白理解决策树1 什么是决策树1.1 决策树的基本概念1.2 决策树模型的分类2 树模型的拆分【回答问题1、3】2.1 基尼不纯度（适用分类树）2.2 信息增益（适用分类树）2.3 方差法（适用回归树）3 决策树的关键参数4 树模型剪枝（注意在测试样本上进行评估）4.1 预剪枝4.2 后剪枝5 连续值特征处理【回答问题2】6 缺失值如何处理7 算法详解7.1 ID3算法（分类问题，多叉树）7.2 C4.5算法（分类问题，多叉树）7.3 CART算法（分类/回归，二叉树）7.3.1 CA

2021-03-22 22:30:29 360

原创集成学习（上）Task02：掌握基本的回归模型

集成学习（上）Task02：掌握基本的回归模型1 度量模型的性能指标2 具体可选择的回归模型2.1 线性回归模型2.2 线性回归推广——多项式回归2.3 线性回归推广——广义可加模型(GAM)2.4 回归树模型2.4.1 方法2.4.2 与线性回归模型的比较2.4.3 回归树模型的优缺点3 用例子来比较以上四种模型的回归效果鉴于自己的专业，此次我的学习总结仍然偏重于应用，只对几种常用回归模型、其使用情景和效果做梳理。对于线性回归模型我会在后一篇文章稍微加一些理论推导部分，因为这部分应用的较多。1 度

2021-03-19 02:55:42 229

原创集成学习（上）Task01：熟悉机器学习的主要任务

DataWhale集成学习（上）Task01：熟悉机器学习的三大主要任务1 什么是机器学习2 有监督学习导论2.1 回归2.2 分类这算是我第一次正式、系统学习【机器学习】和【集成学习】，言外之意我就是个小白（交通专业，不过对用python进行数据分析还是有基础的）～～关于打卡，我只想把自己最关心的、对我最有价值的部分提取出来，一方面算作给自己的回忆，另一方面也算做给和我同样水平的小伙伴的分享吧！1 什么是机器学习一句话概括机器学习：利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。

2021-03-16 00:58:40 258 1

AlexDNG的博客