k折交叉验证,stacking和blending模型融合,xgboost可自定损失函数,但是要求出一阶,二阶导数,解决类别不平衡的问题,过采样或者代价敏感函数

最新推荐文章于 2022-12-30 21:30:09 发布

我是女孩

最新推荐文章于 2022-12-30 21:30:09 发布

阅读量1.5k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013385018/article/details/104550828

版权

机器学习专栏收录该内容

37 篇文章 7 订阅

订阅专栏

K折交叉验证

一般情况将K折交叉验证用于模型调优，找到使得模型泛化性能最优的超参值。找到最优参数后，在全部训练集上重新训练模型，并使用独立测试集对模型性能做出最终评价。

如果训练数据集相对较小，则增大k值。

增大k值，在每次迭代过程中将会有更多的数据用于模型训练，能够得到最小偏差，同时算法时间延长。且训练块间高度相似，导致评价结果方差较高。

如果训练集相对较大，则减小k值。

减小k值，降低模型在不同的数据块上进行重复拟合的性能评估的计算成本，在平均性能的基础上获得模型的准确评估。

K折交叉验证的一个特例：

留一（LOO）交叉验证法：将数据子集划分的数量等于样本数（k=n），每次只有一个样本用于测试，数据集非常小时，建议用此方法。

blend ensemble and stack ensemble

本质都是分两层,第二层用第一层的预测值作为特征再进行训练

Blending与stacking相比优点在于：

1.比stacking简单（因为不用进行k次的交叉验证来获得新特征）

2.由于两层使用的数据不同，所以避免了一个信息泄露的问题。

3.在团队建模过程中，不需要给队友分享自己的随机种子。

而缺点在于：

1.由于blending对数据集这种划分形式，第二层的数据量比较少。

2.由于第二层数据量比较少所以可能会过拟合。

3.stacking使用多次的CV会比较稳健

对于实践中的结果而言，stacking和blending的效果是差不多的，所以使用哪种方法都没什么所谓，完全取决于个人爱好。

blend ensemble

比如70%的数据作为新的训练集，剩下30%的数据作为测试集。

第一层我们在这70%的数据上训练多个模型，然后去预测那30%数据的label。

在第二层里，我们就直接用这30%数据在第一层预测的结果做为新特征继续训练即可。

stack ensemble(两层都用到的所有训练数据)

第一层:全部训练数据,多个模型k折交叉验证

第二层:对验证集上的预测值作为特征,进行训练

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
k折交叉验证,stacking和blending模型融合,xgboost可自定损失函数,但是要求出一阶,二阶导数,解决类别不平衡的问题,过采样或者代价敏感函数

K折交叉验证一般情况将K折交叉验证用于模型调优，找到使得模型泛化性能最优的超参值。找到最优参数后，在全部训练集上重新训练模型，并使用独立测试集对模型性能做出最终评价。如果训练数据集相对较小，则增大k值。增大k值，在每次迭代过程中将会有更多的数据用于模型训练，能够得到最小偏差，同时算法时间延长。且训练块间高度相似，导致评价结果方差较高。如果训练集相对较大，则减小k值。减小k值，降...
复制链接

扫一扫

专栏目录

我是女孩 CSDN认证博客专家 CSDN认证企业博客

码龄11年

114: 原创

5万+: 周排名

31万+: 总排名

25万+: 访问

: 等级

2811: 积分

89: 粉丝

145: 获赞

48: 评论

849: 收藏

私信

关注

热门文章

分类专栏

leetcode 10篇
推荐 19篇
轨迹 1篇
tensorflow 13篇
小工具 3篇
强化学习 1篇
营销 3篇
随笔 3篇
环境搭建 13篇
linux 1篇
大数据spark 11篇
数据库杂 3篇
机器学习 37篇
java 2篇

最新评论

lightgbm处理类别特征
gfjy10: 这个中文特征应该怎么解决呢
lightgbm处理类别特征
维苏威火山: 下载了github上的源码，命令行这样输入后会报错误："../../lightgbm" config=train.conf header=true categorical_feature=9,11,17,18,22 错误：[LightGBM] [Fatal] Unknown token ua in data file Met Exceptions: Unknown token ua in data file 请问是什么缘故？列号是正确的
pmml文件模型，Java调用
汀沿河: 这个问题你解决了吗
Uber开发的地图网格化的包h3
lonelyMangoo: 请问这个具体是怎么实现的
Uber开发的地图网格化的包h3
岛45: 这个怎么下载啊，能不能教一教，谢谢恩人

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。