Datawhale语音识别-Task5:模型的改进与优化

1. 过拟合和欠拟合

过拟合指训练后的模型在训练集上loss非常低,perform well但是在测试集上perform bad,可以理解为模型对训练集学得“太好了”以至于不能很好地泛化到测试集上了。
欠拟合是指模型对训练集学习不充分,没有学到全部的先验知识,这种情况数据集对训练集和测试集都会表现不佳。

2. 泛化误差、偏差、方差

泛化误差

当模型在上不能很好的泛化到测试集上时,我们称模型的泛化误差较大。降低模型的复杂度一定程度上可以减小泛化误差。

偏差

偏差指每次采样m个数据训练模型得到的输出的平均相对于真实模型输出的偏差。由学习算法做出了错误的假设导致

方差

方差指每次采样m个数据训练模型得到的输出的方差。由模型复杂度相对于训练样本数过高导致。

3. 模型评估

主要方式是交叉检验

4. 集成学习

主要算法分为boosting 和bagging。
Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。 Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林(Random Forest)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值