Datawhale-集成学习
文章平均质量分 76
Joyeeee.
这个作者很懒,什么都没留下…
展开
-
集成学习(中)- 投票法
集成学习(中)- 投票法内容由Datawhale学习材料整理而成投票法投票法是集成学习中的常用技巧。本质是通过多个模型的集成降低方差,从而提高模型的鲁棒性。对于回归问题,投票法最终的预测结果是多个回归模型预测结果的平均值。对于分类问题,又分为硬投票法和软投票法:硬投票法:多个模型预测结果中出现次数最多的类别。软投票法:对各类预测结果的概率进行求和,最终选取概率之和最大的类标签。相对于硬投票,软投票法考虑到了预测概率这一额外的信息,因此可以得出比硬投票法更加准确的预测结果。投票法要注原创 2021-04-14 23:04:06 · 959 阅读 · 0 评论 -
集成学习(上) - Task 6 - 模型评估与超参数调优
来自机器学习模型评估与超参数调优详解k折交叉验证来自k折交叉验证K折交叉验证一般用于模型调优,找到使得模型泛化性能最优的超参值。找到后,在全部训练集上重新训练模型,并使用独立测试集对模型性能做出最终评价。K折交叉验证使用了无重复抽样技术的好处:每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会。如果训练数据集相对较小,则增大k值。增大k值,在每次迭代过程中将会有更多的数据用于模型训练,能够得到最小偏差,同时算法时间延长。且训练块间高度相似,导致评价结果方差较高。如果训练集相对较大,原创 2021-03-29 23:45:28 · 326 阅读 · 0 评论 -
集成学习 -Task 5
文章目录分类模型性能度量 - 混淆矩阵/F1/AUC与ROC性能度量混淆矩阵准确率精准率/查准率召回率/查全率定义查准率和查全率有什么用?精准率(查准率)和召回率(查全率)的关系 - F1分数如何理解P-R(查准率-查全率)这条曲线?F1分数灵敏度,特异度,真正率,假正率ROC(接受者操作特征曲线)ROC曲线的阈值问题如何判断ROC曲线的好坏?ROC曲线无视样本不平衡AUC(曲线下的面积)Logistic 回归Logistic 回归简介Logistic 回归的数学表达如何求解最优的 θ\thetaθLogi原创 2021-03-28 01:31:06 · 239 阅读 · 0 评论 -
集成学习(上) - Task 4 - 超参数调优
超参数调优要区别于参数调优使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数,无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数是超参数。参数是模型内部的配置变量,其值可以根据数据进行估计。进行预测时需要参数。参数定义了可使用的模型。参数是从数据估计或获悉的。参数通常不由编程者手动设置。参数通常被保存为学习模型的一部分。参数是机器学习算法的关键,它们通常由过去的训练数据中总结得出。模型超参数是模型外部的配置,其值无法从数据中估计。超参数通常用于帮助估计模型参数。原创 2021-03-23 20:05:04 · 284 阅读 · 0 评论 -
集成学习(上) - Talk 3
文章目录测试误差及其优化训练误差修正交叉验证特征选择压缩估计(正则化)岭回归(L2正则化的例子)Lasso回归(L1正则化的例子)降维PCA(主成分分析)方差与偏差方差:偏差:误差方差与偏差的关系模型训练为什么要引入偏差和方差?请理论论证。推导方法 - 一个很清晰的推导过程泛化误差定义方差定义偏差定义噪声定义推导过程测试误差及其优化一般而言,我们并不关心模型在训练集上的训练均方误差,我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。那我们如何原创 2021-03-21 23:29:55 · 371 阅读 · 0 评论 -
集成学习(上) - Task 2
集成学习(上) - Task 2文章目录集成学习(上) - Task 2完成一个完整的机器学习项目有哪些步骤?选择度量模型性能的指标:线性回归模型最小二乘估计概率视角的理解代码线性模型的推广多项式回归广义可加模型(GAM)回归树完成一个完整的机器学习项目有哪些步骤?原文来自一个完整机器学习项目流程总结理解实际问题,抽象为机器学习能处理的数学问题理解实际业务场景问题是机器学习的第一步。深入理解要处理的问题,能避免走很多弯路,节省时间。理解问题,包括明确可以获得什么样的数据,机器学习的目标是一个分原创 2021-03-19 02:10:40 · 222 阅读 · 0 评论 -
集成学习(上) - Day 1
机器学习的部分我比较熟悉了,我把本节的学习重点放在sklearn工具包上导论机器学习:用数学模型理解数据,发现数据中的规律,用作数据分析和预测。机器学习任务分类根据是否有因变量:有监督学习无监督学习根据因变量是否连续:回归分类常用工具包:scikit-learn(sklearn)回归以sklearn内置数据集Boston房价数据集为例。sklearn中所有内置数据集都封装在datasets对象内。data: 特征X的矩阵(ndarray)target: 因变量的原创 2021-03-15 20:07:50 · 111 阅读 · 0 评论