机器学习实战——笔记（线性回归之误差分析）

最新推荐文章于 2024-08-04 08:00:00 发布

龚大龙

最新推荐文章于 2024-08-04 08:00:00 发布

阅读量5.1k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37970224/article/details/86512443

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

线性回归之误差分析

首先回顾下上一节得到的曲线长这样：
图来源于李宏毅大神~

在这里插入图片描述

error主要来源于两方面：
bias：标准差
variance：方差

简单的来理解一下bias（标准差）及variance（方差）
在这里插入图片描述

比如：“预测宝可梦进化后的战斗力的例子”

我们知道一定存在一个最佳的数学模型来预测新的“宝可梦”进化后战斗力，记为 $\hat{f}$ （这也是我们辛辛苦苦想找的）

但是，我们每次实验结果得到最好的模型并非就是 $\hat{f}$ ，我们记为 $f^*$

那我们进行多次实验，就会得到多个 $f^*$ ，假如进行n次实验，我们取平均得： $\overline{f} = \frac{1}{n}\sum_{i=1}^nf^*$

故： $bias=\hat{f} - \overline{f}$
（离靶心有多远）

variance方差：简单的理解就是数据的离散程度，方差越大越离散，反之越集中。

上面我们N个样本的平均值为m，无限接近 $\mu$ ，但不等于 $\mu$ ，数学期望等于 $\mu$ ，数据越多越集中在 $\mu$ 附近

在这里插入图片描述

在这里插入图片描述
所以，我们希望找到 low baise 和 low variance

实验

场景：小智分别用一次、二次…五次的模型各做了100次实验（即100个 $f^*$ ），每次实验在野外随机抓10只“宝可梦”。

得出方差的结论如下：
在这里插入图片描述

低次模型具有较小的方差，高次模型具有较大的方差

关于bais方面：
在这里插入图片描述

在这里插入图片描述

低次的模型具有较大的bias，而高次的模型具有较小的bias
试着来解释一下：
高次的模型包含的Function Sets范围更大，更容易把靶心（ $\hat{f}$ ）包含进来。
而低次的模型包含范围更小，容易漏掉靶心

所以我们要权衡这两者：
在这里插入图片描述

问题来了:
如果bias大，该怎么办？
bias大说明靶心可能不在你设计的模型中，你需要重新设计模型（更复杂），可能需要考虑更多的因变量

问题来了:
如果variance大，该怎么办？
variance大说明过拟合啦~
过拟合可以增加数据量、正则化、dropout等…
具体参见过拟合的策略

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习实战——笔记（线性回归之误差分析）

线性回归之误差分析首先回顾下上一节得到的曲线长这样：图来源于李宏毅大神~error主要来源于两方面：bias：标准差variance：方差简单的来理解一下bias（标准差）及variance（方差）比如：“预测宝可梦进化后的战斗力的例子”我们知道一定存在一个最佳的数学模型来预测新的“宝可梦”进化后战斗力，记为f^\hat{f}f^（这也是我们辛辛苦苦想找的）但是，我们每...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

龚大龙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。