李宏毅机器学习笔记(五)-----Where does the error come from

视频来源:

李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

https://www.bilibili.com/video/av10590361/?p=5

function set   === model

error来源:

(1)baise

(2)variance


问题一:  怎么估算Biase和Variance -------数理统计中的点估计


点估计步骤:

(1)抽取样本

(2)计算样本的均值,方差等

(3)使用统计量近似估算总体的方差,均值

百度介绍点估计:

点估计_百度百科

https://baike.baidu.com/item/%E7%82%B9%E4%BC%B0%E8%AE%A1/10842926?fr=aladdin

如图:

(1)baise就相当于眼睛瞄准的时候是否有偏差以及偏差的多少

(2)variance就是瞄准之后手是否抖动或者是设备的好坏

分析:

第一张图表示蓝色点在靶心的位置,也就是瞄准了以及手也没抖

第二张瞄准了(点散落在靶心的周围)但是手抖了




model复杂性与散布的关系:

简单的model不怎么受不同data的影响比较小(想的少,没心没肺),他自己会找到符合自己的曲线的数据

复杂的model'就是想的比较多(劳碌命),每一个不同的数据它都想囊括进来(一个都不能少)


Biase

黑色:  真实的曲线(靶心)

红色:每次不同model500次运行(图中为一次多项式和三次多项式模型)

蓝色:500次的平均


结论:

(1)复杂的均值更接近与靶心,有较小的baise。   所有有可能错过靶心

(2)model只考虑部分的点,比如线性的将其他不符合的舍弃会造成大的baise

       

baise 大

解决方案:

(1)重构model

(2)加入更多的特征



variance比较大(手抖-----)解决的方案

(1)增加data

(2)Regularization----强迫是曲线更平滑

regularzation  正则化

影响:

(1)可能对baise造成影响,错过靶心

机器学习之正则化(Regularization) - Acjx - 博客园

https://www.cnblogs.com/jianxinzhou/p/4083921.html




重点:  就是在baise和variance中取得平衡


why not do

(1)在试验中我们使用的Testing 是自己已经知道的局部的一些总体的数据也就是真正的Testing我们是没有的

(2)我们自己设置的Testingset也存在自己的偏差,而这个可能是无法避免的因为我们需要自己进行分出训练集和测试集。故而我们若是选择了model  在我们自己分配的测试集中的error最小的可能造成在真正的应用中error会超级大


交叉验证思想介绍

编辑
在使用训练集对参数进行训练的时候,经常会发现人们通常会将一整个训练集分为三个部分(比如mnist手写训练集)。一般分为:训练集(train_set),评估集(valid_set),测试集(test_set)这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解,其实就是完全不参与训练的数据,仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下面的知识了。
因为在实际的训练中,训练的结果对于训练集的拟合程度通常还是挺好的(初试条件敏感),但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练,而是分出一部分来(这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证(Cross Validation)。
来源百度:
交叉验证_百度百科
https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E9%AA%8C%E8%AF%81/8543100?fr=aladdin



我们应用和看到的就是Public 的部分







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值