模型改进和优化

“过拟合”和“欠拟合”

1、过拟合:模型在训练集上表现很好,但是在测试集或者新数据上表现很差;
2、欠拟合:模型在训练集和测试集上表现都不好

降低过拟合的方法:

①增加训练数据或者采用某些方法(如生成式对抗网络)合成大量数据
②降低模型复杂度(减少不重要变量的引入、减少网络层数、神经元个数、降低树的深度、剪枝等)
③正则化(即给模型加上一定的正则约束,如L1、L2正则化)
④集成学习(采用多个模型的融合来降低单一模型下的过拟合)

降低欠拟合的方法:

①添加新特征(挖掘“上下文特征”“ID类特征”“组合特征”;借用一些模型完成特征工程,如因子分解机、梯度提升决策树、Deep-crossing等)
②增加模型复杂度(如在线性模型中引入交叉项、高次项)
③减少正则化系数

偏差和方差

①偏差:训练集训练出的所有模型的输出的平均值和真实模型输出的平均值的偏差;偏差通常是模型选择错误导致的,本来应该是二次函数模型,但我们却使用了一次函数模型
②方差:训练集训练出的所有模型的输出的方差和真实模型输出的方差的方差;方差通常是由于模型复杂度相对于训练集样本数而言过高所导致的。由方差带来的误差通常体现在测试误差相对于训练误差的增量上。

模型评估

① Holdout检验:将原始样本数据划分为训练集和测试集
② 交叉检验:将样本划分成多个子集,将当前子集作为验证集,其他子集作为训练集
③ 自助法:基于自助采样的检验方法。对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集。N次采样过程中,有的样本会被重复采样,有的没有被抽到过,将这些没有被抽到过的样本作为验证集,进行模型验证,即自助法的验证过程。
集成学习
① Boosting:采用串行的方式训练基分类器,各个基分类器之间有依赖,后一个基分类器会对前一分类器分错的样本给予更高的权重再进行训练,依次不断重复,直至犯错误的次数减少到很低的程度。
② Bagging:采用串行的方式训练,各个基分类器之间没有强依赖关系,可以并行进行训练。每个基分类器单独学习,学习内容可以相同,也可以不同,还可以部分重叠。但由于个体之间存在差异,最终做出的判断不会完全一致。最终决策,通过每个基分类器做出的决策,再经过投票得出最后的集体决策。
③ 集成学习的步骤:
Step1:找到误差互相独立的基分类器
Step2:训练基分类器
Step3:合并基分类器的结果

合并基分类器的方法:1)voting:即“少数服从多数”的投票方式
2)stacking:用串行的方式,把前一个基分类器的结果输出到下一个分类器,将所有基分类器的输出结果相加作为最终的输出。(或者是用更复杂的算法进行融合)

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值