机器学习基石第八周笔记

最新推荐文章于 2018-11-10 10:52:56 发布

SilenceHell

最新推荐文章于 2018-11-10 10:52:56 发布

阅读量237

点赞数

分类专栏：机器学习基石学习笔记

本文链接：https://blog.csdn.net/Du_Shuang/article/details/81455250

版权

机器学习基石学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

Noise and Error
一.Noise and Probabilistic Target
这里写图片描述
之前我们的模型假设我们的sample都是f(x)得到的即正确的数据，但是实际上我们的数据在传输或者获取过程中总会出现误差，我们称之为noise，那么在数据存在noise的情况下我们的VC维定理还正确吗，我们还能通过这些存在noise的数据学到东西吗?

noise出现的三种形式如下所示：
这里写图片描述
如下图所示，左边的数据直接用f(x)进行比较即数据为完全正确的数据，右边的数据用y进行比较y是一个由p(y|x)概率产生的结果，因为获取的f(x)可能是错误的，也可能是正确的但是我们不知道那个数据是错误的那个是正确的，所以我们将每个数据概率化，即一个数据有p的概率是正确的，有1-p的概率是错误的。
最后的结论是在右噪声的情况下我们依旧能学到东西，但是不在重新证明。
这里写图片描述
如下图所示，mini-target on x代表x的正确label，一个数据的lable由两部分组成，一部分为ideal mini-target即正确label，另一部分为noise,一般数据的正确的概率为0.7错误的概率为0.3，由上诉数据我们希望得到数据的ideal mini-target。
这里写图片描述
下图为修改后的模型，主要增加了noise。

2.Error Measure
这里写图片描述
我们主要关心out-of-sample的错误率，由上图最后三个因素决定即对取样之外的点进行预测与f(x)比对然后求错误的平均。
我们一般考虑两种错误即sample数据的错误率和out-of-sample的错误率。

我们主要使用以下两种方式对单个数据的错误进行计算，根据使用场合不同使用不同的错误计算方式。
这里写图片描述
最后模型进一步变为如下所示。

三.Algorithmic Error Measure
如下图所示错误的类型分为两种，一个为false reject，一种叫做false accept.
这里写图片描述
在之前的分析中我们认为两种错误的影响是相通的，我们并没有做区分，但是在具体使用时这两种错误是有区别的，比如在对超市而言，拒绝了一个vip比接受了一个普通人付出的代价更加大，又比如对于CIA拒绝一个有权限的人看一份文件比接受一个没权限的人看文件付出的代价要低很多，所以不同的使用场景，两种错误的权重不同。
这里写图片描述
如上图所示我们一般不好决定不同错误的权重比例，所以我们一般用其他的模型进行代替，比如01和高斯模型。
最后我们的模型变为下图所示模型，增加了errer hat。