机器学习（台湾李宏毅版）学习笔记 Regression——Bias and Variance

最新推荐文章于 2022-03-13 16:43:51 发布

慵懒的黄桃

最新推荐文章于 2022-03-13 16:43:51 发布

阅读量396

点赞数 1

分类专栏：机器学习理论篇

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28083915/article/details/80446770

版权

机器学习理论篇专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Linear Regression:

在机器学习中，只要参数（例如 Y=b+wx 中的b 和 w）是一次项，那么无论变量x的次数多少，都称为Linear Regression。

在线性回归中，先确定好参数的维度，在根据模型写出lost函数，最后通过求偏微分得到minimize lost 的各个参数。

为什么越复杂的模型与training data 越吻合，但是与 test data 却会过拟合；而越简单的模型与training data 差距越大，但是不会出现过拟合？

可以从一维和二位参数的情况来考虑：

一维：y=wx L(w)=1/2∑(y-(wx))²

二维：y=b+wx; L(w,b)=1/2∑(y-(b+wx))²

(y为真实的数据)

那么对于一维的lost函数，只是在平面上的一条曲线；而对于二维的lost函数，则是在空间上的一个曲面。但是（现在只考虑 local minimum 就是 global minimum 的情况）经过梯度下降后，一维的点会落在曲线最底部，也就是变化率（导数）为0的点，而二维的点会落在曲面的最底部，又一维的曲线必在二维的曲面内，所以二维函数最终的点对应的lost是小于等于一维的。可以看出，维数越大，模型越复杂，lost 值就越小，从而与 training data 就显得更加吻合。

至于为何复杂的模型与test data 的差距不会一直减小，而是可能过拟合呢？那是因为越复杂的模型越容易收到data的影响。比如y=c,最简单的模型，完全不受data的影响。

Bias and Variance

bias 在概率中表现为样本的均值与期望的差距，而variance表现为样本的方差。

在Linear Regression 中，我们通过N个实验，得到N条模型曲线，然后求得这N条模型曲线的一条平均曲线，这条曲线与真实曲线的差距称为Bias。而将每一条曲线与平均曲线的分散程度称为variance。可以通过打靶的例子形象地理解：

high bias,high variance :瞄不准，手还抖。

high bias,low variance: 瞄不准，手稳。

low bias,high variance : 瞄的准，手还抖。

low bias,low variance : 秒得准，手稳。

根本不靠谱的模型：high bias, high variance;

简单模型：high bias ,low variance;

复杂模型 : low bias,low variance;

过复杂模型（出现了过拟合）：low bias, high variance;

Regularization

Regularization 是指在lost function 后加一项部分参数平方的和再乘以一个自定义的 λ。这样的话可以使得到的模型曲线更加平滑，我们通常认为更加平滑的曲线会更好地贴近真实曲线。为什么这样会使得曲线更加平滑呢？因为这样一来，求得的参数会比较小，参数更小意味着曲线更加平滑，但是这样的话，lost函数会不如以前精确，因为在求参数的偏微分时，还要考虑Regression 的那一项。

慵懒的黄桃

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习（台湾李宏毅版）学习笔记 Regression——Bias and Variance

Regression:在机器学习中，只要参数（例如 Y=b+wx 中的b 和 w）是一次项，那么无论变量x的次数多少，都称为Regression。在线性回归中，先确定好参数的维度
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。