【学习笔记3】Basic Concept

复习

bias:偏差
variance:方差
测试数据集上的error误差来自bias和variance

在这里插入图片描述

具体研究bias和variance对error的影响

f hat为正确值 f**为估计值
在这里插入图片描述
mean:平均值
样本均值m与总体均值 μ \mu μ的差异
(样本平均值是总体平均值的无偏估计)

即E(m)= μ \mu μ
在这里插入图片描述
μ \mu μ周围散的有多开取决于variance,variance取决于样本的数量
n越大就会分布得越集中

在这里插入图片描述
s^2普遍要比 σ \sigma σ ^2要小
当增加n的值,结果E(s^2)就更接近 σ \sigma σ ^2
在这里插入图片描述

数据可视化(用打靶图来表示)

偏差bias看距离点的远近,方差variance看点的分散程度(离中心越远,偏差越大;点越集中,方差越小)
bias是描述一组数据准确度的量,variance是描述一组数据离散程度的量(准和稳)

在这里插入图片描述
在这里插入图片描述
*采用相同的function model,但如果训练数据不一样,得到的 f *也是不同的
在这里插入图片描述
在这里插入图片描述
更简单的model更不容易被样本数据影响,所以它的variance更小
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
取avg之后,带五次项的更接近真实值(即其bias较小)
在这里插入图片描述
瞄得越来越准(bias越小),手越来越抖(variance越大)
欠拟合(underfitting)与过拟合(overfitting)

在这里插入图片描述

怎样调整过大的bias或variance

若你的model更不符合训练数据集,则underfitting
若你的model更不符合测试数据集,则overfitting

在这里插入图片描述
在这里插入图片描述
trade-off:权衡,折中
训练集 验证集(public) 测试集(private)
除非你的testing set比较好的代表了总体分布,否则在实际使用时Err一定会变差

你不应该做什么

在这里插入图片描述
baseline:基线(对照组,由别人做的基准模型)
所以public testing set不可靠

在这里插入图片描述
cross validation:交叉验证
在这里插入图片描述
N-fold Cross Validation:n折交叉验证
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值