林轩田机器学习基石心得8:Noise and Error

注:本文为博主观看视频后的心得与总结,详细笔记可戳:
http://blog.csdn.net/red_stone1/article/details/71512186

0. 前言

  • 上一节课中讲解了VC唯及其意义,证明只要假设函数集的VC维是有限的,那么在样本足够的情况下机器学习就是可行的。
  • 这一节课中主要讲解数据中存在Noise时机器学习是否可行,及几种错误估计方法。

1. Noise and Probablistic target

  • 噪声点(Noise)的三种情况:

    1. 由于人为因素,正类被误分为负类,或者负类被误分为正类;
    2. 同样特征的样本被模型分为不同的类;
    3. 样本的特征被错误记录和使用。
  • 噪声点下的区别:

    • 无噪声时:称为Deterministic。每个特征对应的标签都是确定的。
    • 存在噪声时:Noise。每个特征对应的标签都是个概率, P(y|x)

    无噪声可以看成特殊的概率分布,即概率为1或0。

2. Error Measure

  • PointWise error:错误衡量方法。对数据集的每个点计算错误并计算平均。通常可分为两类:0/1 error和squared error。0/1 error通常用在分类(classification)问题上,而squared error通常用在回归(regression)问题上。

  • Ein Eout 的 PointWise error:
    这里写图片描述

  • 0/1 error和squared error:

    • 0/1error:如果两个一样就为1,否则为0。
    • squared error:将两个数相减后平方。
      这里写图片描述

3. Algorithmic Error Measure

  • 两种错误:false accept和false reject。false accept意思是误把负类当成正类,false reject是误把正类当成负类。我们在对待两种问题时应该有所区别。比如说支付宝指纹解锁,要是他人的指纹也可以解锁那么损失就会很大,但是自己的指纹解锁不了损失就不会那么大。
    这里写图片描述

  • 算法中的错误估计:机器学习演算法A的cost function error估计有多种方法,真实的err一般难以计算(NP-hard),主要有两种方法:plausible或者friendly。

    • plausible:找到一种说服自己的方法。
    • friendly:找到一些近似最优的方案。
      这里写图片描述

4. Weighted Classification

这一部分中考虑在Pocket算法中,不同错误分类存在权重时的算法变更。

  • 当不同的分类方法具有权重时,比如说:
    这里写图片描述
    此时我们需要做两步修改:
    1. 在Pocket算法中我们会选择一个错误样本,在这里我们需要更高概率选择y=-1的样本,概率为y=1的1000倍。
    2. 计算错误率 Ein 时,更改公式:
      这里写图片描述

5. 总结

本节课证明当Noise的存在时,VC维的定理依然成立,并介绍了机器学习中0/1和最小二乘两种错误评估方法。并考虑在不同的错误存在权重时,如何对算法进行更改。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值