【机器学习笔记1】Error Space

最新推荐文章于 2022-08-04 17:37:40 发布

冰柚子

最新推荐文章于 2022-08-04 17:37:40 发布

阅读量239

点赞数

分类专栏：机器学习与pytorch 文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_45110581/article/details/106034862

版权

机器学习与pytorch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

课程链接

李宏毅2020机器学习深度学习(完整版)国语-basic concept
课程学习网站链接

1.Bias and Variance of Estimator

实际真实函数f^
训练拟合函数f*
多次实验得到的多个拟合函数的期望f-
f*和f^的误差error，可以分解为error due to “bias” 和error due to “variance”
在这里插入图片描述

2. Model Diagnosis

模型诊断是优化模型的关键。

【模型复杂度与error的关系】
随着模型的复杂度增加，error情况变化如👇
在这里插入图片描述
在error from bias和error from variance取折中，以期待得到最小的total error。

【模型诊断和优化方向】
模型无法拟合训练数据，多半是large bias
可以考虑提高模型复杂度，如：增加feature数量，选择更加复杂的函数
模型可以拟合训练数据，无法拟合测试数据，多半是large variance
可以考虑：扩充数据集，归一化(平滑模型)
在这里插入图片描述

3. Model selection

模型选择的标准：最小的total error。
模型选择的方法：交叉验证法、N折交叉验证法

交叉验证：将训练数据按一定比例分成训练集和验证集，以验证精度作为选择标准。

在这里插入图片描述
N折交叉验证：
1.将训练数据均分N份
2.一份最为验证集，余下用于训练集
3.平均验证精度作为选择标准，模型择优
4.用全部训练集对最优模型进行训练，得到最终模型

1的补充，举例说明

一变量x，假设其均值为μ，方差为σ2

1.1均值估计器

取样方式：N个x
估计模型：求和取均
在这里插入图片描述
一次取样，一次估计的【均值估计值m】，与【均值真值μ】有【误差error】
但多次(无限次)取样，多次估计的【均值估计值m】的【期望E(m)】,与【均值真值μ】无【偏差bias】
所以均值估计器，没有【error due to “bias”】，是无偏估计
在这里插入图片描述
多次(无限次)取样，多次估计的【均值估计值m】的【方差Var(m)】,与【均值真值μ】的【方差σ2】呈线性关系。
单次取样数N越大，其方差越接近，但不会相等，存在【error due to “variance”】
【注】此处Smaller N和Larger N 写反了👇。
在这里插入图片描述