P2 误差

机器学习中的Bias和Variance

偏差:Error due to Bias: Bias表示的就是模型预测的值和真实值之间的距离的期望。所以我们会通过建立多个模型(如使用不同的数据子集)来估计这个误差期望值。Bias代表着算法的拟合能力。 即模型预测的均值和真实值之间的距离。

简单的模型函数集的space比较小,所以可能space里面就没有包含靶心,肯定射不中。而复杂的模型函数集的space比较大,可能就包含的靶心,只是没有办法找到确切的靶心在哪,但足够多的,就可能得到真正的 f¯f¯。

方差:Error due to Variance: Variance表示的是当你对一个模型使用不同的数据进行多次建模时,这些模型在某一个点上的预测值的方差就是该模型在这个点上预测值的variance。其实就是预测值的方差的意思。Variance代表这算法的鲁棒性。

比较简单的模型,方差是比较小的(就像射击的时候每次的时候,每次射击的设置都集中在一个比较小的区域内)。如果用了复杂的模型,方差就很大,散布比较开。简单的模型受到不同训练集的影响是比较小的

                

红色的圆心是真实值,小蓝点是预测值

误差和模型复杂度的关系:

简单模型(左边)是偏差比较大造成的误差,这种情况叫做欠拟合,而复杂模型(右边)是方差过大造成的误差,这种情况叫做过拟合。

 

如果模型没有很好的训练训练集,就是偏差过大,也就是欠拟合 如果模型很好的训练训练集,即再训练集上得到很小的错误,但在测试集上得到大的错误,这意味着模型可能是方差比较大,就是过拟合。 对于欠拟合和过拟合,是用不同的方式来处理的

解决欠拟合(高偏差)的方法

1.模型复杂化

  • 对同一个算法复杂化。例如回归模型添加更多的高次项,增加决策树的深度,增加神经网络的隐藏层数和隐藏单元数等
  • 弃用原来的算法,使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归,用随机森林来代替决策树等

2.增加更多的特征,使输入数据具有更强的表达能力

  • 特征挖掘十分重要,尤其是具有强表达能力的特征,往往可以抵过大量的弱表达能力的特征
  • 特征的数量往往并非重点,质量才是,总之强特最重要
  • 能否挖掘出强特,还在于对数据本身以及具体应用场景的深刻理解,往往依赖于经验

3.调整参数和超参数

  • 超参数包括:
    • 神经网络中:学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1β1和β2β2参数、batch_size数值等
    • 其他算法中:随机森林的树数量,k-means中的cluster数,正则化参数λλ等

4.增加训练数据往往没有用

  • 欠拟合本来就是模型的学习能力不足,增加再多的数据给它训练它也没能力学习好

5.降低正则化约束

  • 正则化约束是为了防止模型过拟合,如果模型压根不存在过拟合而是欠拟合了,那么就考虑是否降低正则化参数λλ或者直接去除正则化项

解决过拟合(高方差)的方法

1.增加训练数据数

  • 发生过拟合最常见的现象就是数据量太少而模型太复杂
  • 过拟合是由于模型学习到了数据的一些噪声特征导致,增加训练数据的量能够减少噪声的影响,让模型更多地学习数据的一般特征
  • 增加数据量有时可能不是那么容易,需要花费一定的时间和精力去搜集处理数据
  • 利用现有数据进行扩充或许也是一个好办法。例如在图像识别中,如果没有足够的图片训练,可以把已有的图片进行旋转,拉伸,镜像,对称等,这样就可以把数据量扩大好几倍而不需要额外补充数据
  • 注意保证训练数据的分布和测试数据的分布要保持一致,二者要是分布完全不同,那模型预测真可谓是对牛弹琴了

2.使用正则化约束

  • 在代价函数后面添加正则化项,可以避免训练出来的参数过大从而使模型过拟合。使用正则化缓解过拟合的手段广泛应用,不论是在线性回归还是在神经网络的梯度下降计算过程中,都应用到了正则化的方法。常用的正则化有l1l1正则和l2l2正则,具体使用哪个视具体情况而定,一般l2l2正则应用比较多

3.减少特征数

  • 欠拟合需要增加特征数,那么过拟合自然就要减少特征数。去除那些非共性特征,可以提高模型的泛化能力

4.调整参数和超参数

  • 不论什么情况,调参是必须的

5.降低模型的复杂度

  • 欠拟合要增加模型的复杂度,那么过拟合正好反过来

6.使用Dropout

  • 这一方法只适用于神经网络中,即按一定的比例去除隐藏层的神经单元,使神经网络的结构简单化

7.提前结束训练

  • 即early stopping,在模型迭代训练时候记录训练精度(或损失)和验证精度(或损失),倘若模型训练的效果不再提高,比如训练误差一直在降低但是验证误差却不再降低甚至上升,这时候便可以结束模型训练了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值