k折交叉验证,stacking和blending模型融合,xgboost可自定损失函数,但是要求出一阶,二阶导数,解决类别不平衡的问题,过采样或者代价敏感函数

K折交叉验证

一般情况将K折交叉验证用于模型调优,找到使得模型泛化性能最优的超参值。找到最优参数后,在全部训练集上重新训练模型,并使用独立测试集对模型性能做出最终评价。

如果训练数据集相对较小,则增大k值。

增大k值,在每次迭代过程中将会有更多的数据用于模型训练,能够得到最小偏差,同时算法时间延长。且训练块间高度相似,导致评价结果方差较高。

如果训练集相对较大,则减小k值。

减小k值,降低模型在不同的数据块上进行重复拟合的性能评估的计算成本,在平均性能的基础上获得模型的准确评估。

K折交叉验证的一个特例:

 留一(LOO)交叉验证法:将数据子集划分的数量等于样本数(k=n),每次只有一个样本用于测试,数据集非常小时,建议用此方法。

blend ensemble and  stack ensemble

本质都是分两层,第二层用第一层的预测值作为特征再进行训练

Blending与stacking相比优点在于:

1.比stacking简单(因为不用进行k次的交叉验证来获得新特征)

2.由于两层使用的数据不同,所以避免了一个信息泄露的问题。

3.在团队建模过程中,不需要给队友分享自己的随机种子。

而缺点在于:

1.由于blending对数据集这种划分形式,第二层的数据量比较少。

2.由于第二层数据量比较少所以可能会过拟合。

3.stacking使用多次的CV会比较稳健

对于实践中的结果而言,stacking和blending的效果是差不多的,所以使用哪种方法都没什么所谓,完全取决于个人爱好。

 

blend ensemble

比如70%的数据作为新的训练集,剩下30%的数据作为测试集。

第一层我们在这70%的数据上训练多个模型,然后去预测那30%数据的label。

在第二层里,我们就直接用这30%数据在第一层预测的结果做为新特征继续训练即可。

stack ensemble(两层都用到的所有训练数据)

第一层:全部训练数据,多个模型k折交叉验证

第二层:对验证集上的预测值作为特征,进行训练

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
K折交叉验证是一种常用的模型评估方法,广泛应用于机器学习和深度学习中。其基本思想是将原始的训练集数据划分为K个较小的子集,然后依次选取其中一份作为验证集,其余的K-1份作为训练集,进行多次训练和评估,最终得到模型的平均评估结果。 在使用TensorFlow进行K折交叉验证时,一般有以下几个步骤: 1. 数据准备:将原始的训练集数据分为K个子集。 2. 模型搭建:使用TensorFlow构建模型,并设置好模型的超参数。 3. K折循环:依次选取其中一份作为验证集,其余的K-1份作为训练集,进行模型训练和评估。 4. 评估指标:选择适当的评估指标来衡量模型的性能,比如准确率、精确度、召回率等。 5. 模型融合:将K次训练得到的模型评估结果进行平均,得到最终的模型评估结果。 K折交叉验证的优点是可以更客观地评估模型的性能,减少了模型在特定数据集上过拟合的可能性。同时,由于采用了多次训练和验证,可以更充分地利用数据集,提高模型的泛化能力。 然而,K折交叉验证也有一些缺点,比如需要进行K次训练,计算时间较长。此外,如果数据集不够大,划分出来的子集可能会比较小,导致评估结果的可靠性降低。 总之,TensorFlow提供了便捷的接口和功能支持,可以轻松地实现K折交叉验证,并通过该方法更准确地评估模型的性能,提高模型的泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值