机器学习基石2（noise和error）

圆月弯刀鞘

已于 2022-12-28 20:06:09 修改

阅读量684

点赞数

分类专栏：机器学习文章标签：人工智能深度学习

于 2022-12-28 19:51:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39861267/article/details/128464704

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

一、什么是noise？
二、什么是error？
三、常用error

一、什么是noise？

我们之前的讨论都是一种理想化的说明，比如数据来源于目标函数 $f$ ，似乎我们手里拿到的数据是这样得来的，随机取一个输入，放入f中，获得一个输出，这样一个（输入，输出）pair就组成了一个样本。

但是实际过程不可能是这样的，误差存在于方方面面，

首先对于输入，可能存在测量误差，比如我们手里拿到的一个数值10.5，有可能这个真实的数值是10。
其次对于输出，也存在和输入一样的情况（对于连续值），当然对于分类任务，输出可能是错误的类别，这也是noise。

在有噪音的情况下，机器学习流程如下：

在这里插入图片描述

现在换一种说法，在理想情况下，给定某个输入 $x$ ，输出是确定的 $y = f (x)$ ，但是加上noise，输出就不是一个确定的值，而是一个分布 $p (y ∣ x)$ ，机器学习流程图可以表述成如下形式：

可喜可贺的是，PAC机器学习框架和上一篇内容介绍的vc理论在有noise的情况下也是成立的，也就是说，即使有噪声，机器学习仍然是可行的。

二、什么是error？

和noise不同，noise是无法避免的，但是error是我们自定义用来衡量机器学习结果和期望结果之间的差别的。针对不同的任务，不同的算法设计，error也不同：

对于分类问题，常见的error就是误分类点的个数；
当然，我们最常用的error还是用距离来度量的error，这种error在分类问题和回归问题上都可以用得到。常见的距离度量见此文章距离的度量。

error的设计不仅要考虑针对具体任务的合理性，也要考虑该error是否对于算法是易于优化的，通常我们希望error是可导的，所以距离度量型的error更常用。

三、常用error

0/1损失
$error=count（\hat{y} \neq y）$
均方差损失MSE， $N$ 个样本误差
$error=\frac{1}{N} \sum_{i=0}^{N-1}(\hat{y_i}-y_i)^2$

3. 交叉熵损失cross entropy，针对 $k$ 分类问题，单个样本误差
$error=-\sum_{i=1}^{k}y_ilog(p_i)$
其中 $p_i$ 表示模型将样本预测为类别 $i$ 的概率，如果样本真实类别为 $i$ ，则 $y_i=1$ ，否则 $y_i=0$ 。
所有样本的误差是取平均。

圆月弯刀鞘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石2（noise和error）

nosie and error
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。