机器学习基石HOW BETTER部分(4)

最新推荐文章于 2024-05-06 20:24:29 发布

weixin_30527551

最新推荐文章于 2024-05-06 20:24:29 发布

阅读量54

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/huang22/p/5401158.html

版权

机器学习基石HOW BETTER部分(4)

标签：机器学习基石

第十六章

奥卡姆剃刀（Occam’s Razor）

哲学意义：剃掉过分的解释。
机器学习：对训练数据最简单的解释就是最好的。
The simplest model that fits the data is also the most plausible.

以前讲过简单的hypothesis，也就是看起来简单。只要简单参数。简单的model(也就是Hypothesis Set)：有效的hypothesis数量不是很多，成长函数长的很慢。

想象有一个简单的model，同时给你一堆随机产生的没什么规律的训练数据。这时候你的model只有很小的机会能够找到Ein是0，杂乱的训练数据导致大部分的时候都没办法分开。那反过来说，如果今天有一组训练数据用你的简单的model可以分开，这表明了你的数据是有显著性的，是有规律的数据。而用复杂的模型，则是达不到这样的效果的。

所以，选择模型的时候，先试线性模型。

抽样偏差（Sampling bias）

If the data is sampled in a biased way, learning will produce a similarly biased outcome.
抽样有偏差的时候，学习算法产生的结果也会有偏差，这样的情形叫做Sampling bias。
VC理论里的一个假设就是：训练数据与测试数据来自于同一个分布。

实用的建议：了解你的测试环境，让你的训练环境跟测试环境尽可能地接近。举例来说，如果测试环境是last user records，也就是时间轴上靠后的使用者资料，那么训练的时候应该要想办法对时间轴上靠后的数据的权重加强一下。或者，做validation的时候也选择late user records靠后的用户资料。

那回头想一想，收集用户资料来预测是否对新顾客发放信用卡的案列。银行有的资料只是发放了信用卡后用户有没有乱花钱，却没有资料诸如之前没有发放信用卡但是如果给他的话会不会乱花钱，也就是说银行有的资料已经是经过筛选过的数据。用来预测新的顾客是否该发放信用卡的两个分布是不太一样的，所以是需要做一些改变的。

偷看资料（Data Snooping）

例如之前我们通过观察数据发现圆圈可能是一个好的hypothesis，这其实忽略了人脑的VC dimension。我们可能会根据自己的脑子想出来一个模型，然后去做。

学习中使用数据的任何过程，都是间接地让你偷看到数据。偷看到数据的表现以后，在下决策去做任何的一件事都要想到，这个数据已经因为你的决策选择过程而多出了很多的model complexity而污染。

所以，在实际操作中，要谨慎地处理Data Snooping这件事情。要做到完全不偷看数据很难，一个折中的方式是做validation。另外，在实际操作中如果要做什么决定的时候尽量避免用数据来做决定，要先把domain knowledge变成feature放进去而不是看完数据再放专业知识进去。然后，要时刻存着怀疑之心，时刻要有一个感觉经过多少过程得到这些结果，结果到底可能被污染的多严重。

总结一下

三个相关的领域：
* Data Mining：从大量的数据里找出一些有兴趣的特性。它跟ML是高度相关的。
* Artificial Intelligence：想让机器做一些有智慧的事情。ML是实现AI的一种方法。
* Statistics：从数据里做一些推论的动作。是ML的工具。

三个理论保证：
* Hoeffding不等式：针对单个hypothesis的抽样
* Multi-Bin Hoeffding：针对M个hypothesis
* VC Bound：针对整个hypothesis set。

三个模型：
* PLA/Pocket：二元分类
* Linear regression：线性回归，公式解
* Logistic regression：分类概率

三个重要工具：
* Feature Transform：通过映射到高维空间，将Ein变小。
* Regularization：反其道而行，想让VC Dimension变小一点，但是可能Ein会变大一些。
* Validation：留下干净的数据来做模型的选择。

三个锦囊妙计：
* Occam’s Razer：simple is good。
* Sampling Bias：training matches testing。
* Data Snooping：honesty is best policy。

转载于:https://www.cnblogs.com/huang22/p/5401158.html

weixin_30527551

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石HOW BETTER部分(4)

机器学习基石HOW BETTER部分(4)标签：机器学习基石第十六章奥卡姆剃刀（Occam’s Razor）哲学意义：剃掉过分的解释。机器学习：对训练数据最简单的解释就是最好的。 The simplest model that fits the data is also the most plausible. 以前讲过简单的hypothesis，也就是看起...
复制链接

扫一扫