2019校招腾讯模拟笔试偏差与方差

最新推荐文章于 2020-10-14 15:56:19 发布

behboyhiex

最新推荐文章于 2020-10-14 15:56:19 发布

阅读量2.5k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/behboyhiex/article/details/82262336

版权

机器学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

泛化误差=偏差的平方+方差+噪声

偏差：衡量算法预期与实际的偏离程度，刻画本身的拟合能力

方差：同样大小的训练集变动所导致学习性能的变化，刻画数据扰动所造成的影响

噪声：表达了当前任务任何学习算法所能达到的期望泛化误差下界，刻画了问题本身的难度。

一般训练程度越强，偏差越小，方差越大，泛化误差一般在中间有个最小值。

如果偏差较大，方差较小，称为欠拟合，

如果偏差较小，方差较大，称为过拟合，

我们希望偏差和方差越小越好，但两者是有冲突的，称为偏差-方差窘境（bias-variance dilemma）。

给定一个学习任务，训练初期，由于训练不足，学习器拟合能力不强，数据的扰动也无法使学习器产生显著变化，欠拟合的情况。

随着训练增加。学习器拟合能力逐渐增强，训练数据的扰动也能被学习器学到

充分训练后，学习器学习能力非常强，训练数据的轻微扰动都会导致学习器发生显著变化，当训练数据自身的、非全局性的特性被学习器学到，则将发生过拟合。

高方差采集更多样本数据减少特征数量去除非主要特征增加正则化参数

高偏差引入更多相关特征采用多项式特征减少正则化参数

过拟合方差大偏差小

随着训练过程的进行，模型复杂度增加，在training data 上error逐渐减小，但在验证集上error 反而增大，因为训练出啦的模型过度拟合了训练集，对训练集外的数据不work，

解决：正则化、dropout、 early stop、 batch normlization 交叉验证数据增强集成 boost bagging 模型融合

一、正则化

L2正则化：目标函数增加所有权重w参数的平方和，逼迫所有w尽可能趋于0但不为0，因为过拟合时候，拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大，在某些小区间，函数值变化剧烈，就是w非常大，为此，加入L2正则化惩罚权重变大的趋势。
L1正则化：目标函数增加所有权重w参数的绝对值之和，，逼迫更多w参数为0，也就是变稀疏，L2因为导数也趋于0，奔向0的速度没有L1快，，L1能实现特征选择，xi大部分特征与最后输出无关，在最小化目标函数时考虑这些额外特征，虽然能获得更小训练误差，但在预测新样本时，这些没用的权重反而被考虑，从而干扰了正确yi的预测，L1的引入完成特征的自动选择，将这些特征权重设为0。

二、dropout

在训练过程中，让神经元以超参数p的概率被激活，也就是以1-p概率被失活，每个w随机参与，使得任意w都不是不可或缺的，效果类似数量巨大的模型集成。

三 early stop

训练提前终止

四 batch normlization

给每层的输出都做一次归一化，相当于加一个线性变换层，使得下一层的输入接近高斯分布，这个方法相当于下一层的w训练时避开了其输入以偏概全，因而泛化效果比较好。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。