林轩田机器学习基石心得8：Noise and Error

最新推荐文章于 2020-04-26 20:13:13 发布

Augus_Xu

最新推荐文章于 2020-04-26 20:13:13 发布

阅读量204

点赞数

分类专栏：机器学习机器学习基石笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_35044025/article/details/79134803

版权

22 篇文章 1 订阅

订阅专栏

18 篇文章 2 订阅

订阅专栏

注：本文为博主观看视频后的心得与总结，详细笔记可戳：
http://blog.csdn.net/red_stone1/article/details/71512186

噪声点（Noise）的三种情况：
1. 由于人为因素，正类被误分为负类，或者负类被误分为正类；
2. 同样特征的样本被模型分为不同的类；
3. 样本的特征被错误记录和使用。
噪声点下的区别：
- 无噪声时：称为Deterministic。每个特征对应的标签都是确定的。
- 存在噪声时：Noise。每个特征对应的标签都是个概率， $P(y|x)$ 。
无噪声可以看成特殊的概率分布，即概率为1或0。

PointWise error：错误衡量方法。对数据集的每个点计算错误并计算平均。通常可分为两类：0/1 error和squared error。0/1 error通常用在分类（classification）问题上，而squared error通常用在回归（regression）问题上。
$E_{in}$ 和 $E_{out}$ 的 PointWise error：
0/1 error和squared error：
- 0/1error：如果两个一样就为1，否则为0。
- squared error：将两个数相减后平方。

两种错误：false accept和false reject。false accept意思是误把负类当成正类，false reject是误把正类当成负类。我们在对待两种问题时应该有所区别。比如说支付宝指纹解锁，要是他人的指纹也可以解锁那么损失就会很大，但是自己的指纹解锁不了损失就不会那么大。
算法中的错误估计：机器学习演算法A的cost function error估计有多种方法，真实的err一般难以计算（NP-hard），主要有两种方法：plausible或者friendly。
- plausible：找到一种说服自己的方法。
- friendly：找到一些近似最优的方案。

这一部分中考虑在Pocket算法中，不同错误分类存在权重时的算法变更。

当不同的分类方法具有权重时，比如说：

此时我们需要做两步修改：
1. 在Pocket算法中我们会选择一个错误样本，在这里我们需要更高概率选择y=-1的样本，概率为y=1的1000倍。
2. 计算错误率 $E_{in}$ 时，更改公式：

本节课证明当Noise的存在时，VC维的定理依然成立，并介绍了机器学习中0/1和最小二乘两种错误评估方法。并考虑在不同的错误存在权重时，如何对算法进行更改。

关注