机器学习基石（林轩田）第十六章笔记与感悟总结

最新推荐文章于 2019-10-18 20:54:12 发布

Jason__Liang

最新推荐文章于 2019-10-18 20:54:12 发布

阅读量459

点赞数

分类专栏： Ĵ机器学习基石（林轩田）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jason__Liang/article/details/80492794

版权

Ĵ机器学习基石（林轩田）专栏收录该内容

15 篇文章 2 订阅

订阅专栏

16.1 Three Learning Principles - Occam’ Razor

简单的hypothesis，简单的model

简单的model。当输入乱乱的资料时，Ein无法很小。

因此，如果用简单的模型，能够分开资料，那么就说明其中会有某种规律。

而不能分开，则说明没有啥规律。

因为复杂的模型能够拟合所有的数据，所以你根本不知道到底是有规律的样本？

还是随机抛硬币产生的样本（没有内在规律）。

16.2 Three Learning Principles - Sampling Bias

总统选举的故事。

clue：电话当时是很贵的。

因为，训练和数据和实际的数据要在同一的分布下来做。

老师当年用来validation的资料是随机选取的，而比赛实际上是用的前七部电影作为训练，后三部电影作为预测。故最后得到的模型并不能提现顺序性，最后模型失败。

因此，training set要和validation set 越接近越好，这样说明最后的模型能够很好的适应test set

银行的资料不知道那些没有通过的人，到底发生什么事。这样当一个顾客来的时候，数据集的分布就不均匀。

16.3 Three Learning Principles - Data Snooping

回顾一下，我们偷看资料的风险。

我们用肉眼偷看资料，是一件很有风险的事情。

偷看资料实际上发生很频繁，不仅是肉眼偷看。

因为资料的变化范围很大，故需要放缩工作。

现在问题是，一种是将前六年统计特性作为放缩，然后预测完后再放缩回去就好。

另一种是，这么麻烦干啥，直接将八年的数据一块放缩得了。

问题在于：我们实际上，将后两年的考卷放进了训练集了，多了两年的资料，红色那条线看到了投资回报率很高很高！！！！我们间接的偷看了！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！

我们如果一直站在前人的肩膀上的话，那么我们实际上就是在不断的拷问我们的数据，最后它一定能够给我们一个好的表现模型。因为我们实际上做了过拟合。

实际上偷看很难避免。

16.4 Three Learning Principles - Power of Three

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。