机器学习基石第八周笔记

Noise and Error
一.Noise and Probabilistic Target
这里写图片描述
之前我们的模型假设我们的sample都是f(x)得到的即正确的数据,但是实际上我们的数据在传输或者获取过程中总会出现误差,我们称之为noise,那么在数据存在noise的情况下我们的VC维定理还正确吗,我们还能通过这些存在noise的数据学到东西吗?

noise出现的三种形式如下所示:
这里写图片描述
如下图所示,左边的数据直接用f(x)进行比较即数据为完全正确的数据,右边的数据用y进行比较y是一个由p(y|x)概率产生的结果,因为获取的f(x)可能是错误的,也可能是正确的但是我们不知道那个数据是错误的那个是正确的,所以我们将每个数据概率化,即一个数据有p的概率是正确的,有1-p的概率是错误的。
最后的结论是在右噪声的情况下我们依旧能学到东西,但是不在重新证明。
这里写图片描述
如下图所示,mini-target on x代表x的正确label,一个数据的lable由两部分组成,一部分为ideal mini-target即正确label,另一部分为noise,一般数据的正确的概率为0.7错误的概率为0.3,由上诉数据我们希望得到数据的ideal mini-target。
这里写图片描述
下图为修改后的模型,主要增加了noise。
这里写图片描述

2.Error Measure
这里写图片描述
我们主要关心out-of-sample的错误率,由上图最后三个因素决定即对取样之外的点进行预测与f(x)比对然后求错误的平均。
我们一般考虑两种错误即sample数据的错误率和out-of-sample的错误率。
这里写图片描述
我们主要使用以下两种方式对单个数据的错误进行计算,根据使用场合不同使用不同的错误计算方式。
这里写图片描述
最后模型进一步变为如下所示。
这里写图片描述

三.Algorithmic Error Measure
如下图所示错误的类型分为两种,一个为false reject,一种叫做false accept.
这里写图片描述
在之前的分析中我们认为两种错误的影响是相通的,我们并没有做区分,但是在具体使用时这两种错误是有区别的,比如在对超市而言,拒绝了一个vip比接受了一个普通人付出的代价更加大,又比如对于CIA拒绝一个有权限的人看一份文件比接受一个没权限的人看文件付出的代价要低很多,所以不同的使用场景,两种错误的权重不同。
这里写图片描述
如上图所示我们一般不好决定不同错误的权重比例,所以我们一般用其他的模型进行代替,比如01和高斯模型。
最后我们的模型变为下图所示模型,增加了errer hat。

4.Weighted Classfication
考虑错误的权重比例后,错误计算方式变为如下所示。
这里写图片描述
这相当于我们将判断错误的数据量由1变为1000。
这里写图片描述
如果我们判断错这一个那么其他的999个和他一样的数据也是错的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值