李宏毅机器学习笔记（五）-----Where does the error come from

最新推荐文章于 2024-08-10 11:44:37 发布

橘子甜不甜

最新推荐文章于 2024-08-10 11:44:37 发布

阅读量651

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luolang_103/article/details/79420694

版权

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

视频来源：

李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ干杯~-bilibili

https://www.bilibili.com/video/av10590361/?p=5

function set === model

error来源：

（1）baise

（2）variance

问题一：怎么估算Biase和Variance -------数理统计中的点估计

点估计步骤：

（1）抽取样本

（2）计算样本的均值，方差等

（3）使用统计量近似估算总体的方差，均值

百度介绍点估计：

点估计_百度百科

https://baike.baidu.com/item/%E7%82%B9%E4%BC%B0%E8%AE%A1/10842926?fr=aladdin

如图：

（1）baise就相当于眼睛瞄准的时候是否有偏差以及偏差的多少

（2）variance就是瞄准之后手是否抖动或者是设备的好坏

分析：

第一张图表示蓝色点在靶心的位置，也就是瞄准了以及手也没抖

第二张瞄准了（点散落在靶心的周围）但是手抖了

model复杂性与散布的关系：

简单的model不怎么受不同data的影响比较小（想的少，没心没肺），他自己会找到符合自己的曲线的数据

复杂的model'就是想的比较多（劳碌命），每一个不同的数据它都想囊括进来（一个都不能少）

Biase

黑色：真实的曲线（靶心）

红色：每次不同model500次运行（图中为一次多项式和三次多项式模型）

蓝色：500次的平均

结论：

（1）复杂的均值更接近与靶心，有较小的baise。所有有可能错过靶心

（2）model只考虑部分的点，比如线性的将其他不符合的舍弃会造成大的baise

baise 大

解决方案：

（1）重构model

（2）加入更多的特征

variance比较大（手抖-----）解决的方案

（1）增加data

（2）Regularization----强迫是曲线更平滑

regularzation 正则化

影响：

（1）可能对baise造成影响，错过靶心

机器学习之正则化（Regularization） - Acjx - 博客园

https://www.cnblogs.com/jianxinzhou/p/4083921.html

重点：就是在baise和variance中取得平衡

why not do

（1）在试验中我们使用的Testing 是自己已经知道的局部的一些总体的数据也就是真正的Testing我们是没有的

（2）我们自己设置的Testingset也存在自己的偏差，而这个可能是无法避免的因为我们需要自己进行分出训练集和测试集。故而我们若是选择了model 在我们自己分配的测试集中的error最小的可能造成在真正的应用中error会超级大

交叉验证思想介绍

在使用训练集对参数进行训练的时候，经常会发现人们通常会将一整个训练集分为三个部分（比如mnist手写训练集）。一般分为：训练集（train_set），评估集（valid_set），测试集（test_set）这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解，其实就是完全不参与训练的数据，仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下面的知识了。

因为在实际的训练中，训练的结果对于训练集的拟合程度通常还是挺好的（初试条件敏感），但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练，而是分出一部分来（这一部分不参加训练）对训练集生成的参数进行测试，相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证（Cross Validation）。

来源百度：

交叉验证_百度百科
https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E9%AA%8C%E8%AF%81/8543100?fr=aladdin

我们应用和看到的就是Public 的部分

橘子甜不甜

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。