Chapter 5 假设评估

最新推荐文章于 2022-12-15 03:55:25 发布

NeutronT

最新推荐文章于 2022-12-15 03:55:25 发布

阅读量551

点赞数

分类专栏：《MachineLearning》学习笔记

本文链接：https://blog.csdn.net/neutront/article/details/78069149

版权

《MachineLearning》学习笔记专栏收录该内容

8 篇文章 2 订阅

订阅专栏

第5章评估假设

对假设的精度进行经验评估是机器学习中的基本问题。

5.1 估计假设精度

5.1.1 样本错误率和真实错误率

样本错误率（Sample Error）:假设 $h$ 关于目标函数 $f$ 和数据样本 $S$ 的样本错误率（标记为 $error_S (h)$ 为

$e r r o r S (h) \equiv 1 n \sum x \in S δ (f (x), h (x))$ $error_S (h) \equiv \frac{1}{n} \sum_{x \in S}{\mathop{\rm \delta}}\big(f(x),h(x)\big)$

其中， $n$ 为 $S$ 中样例的数量，而 ${\mathop{\delta}}\big(f(x),h(x)\big)$ 在 $f(x) \ne h(x)$ 时为1，否则为0。
真实错误率（True Error）:假设 $h$ 关于目标函数 $f$ 和分布 $D$ 的真实错误率（标记为 $error_D (h)$ 为 $h$ 按 $D$ 分布随机抽取实例被误分类的概率：

$e r r o r D (h) \equiv Pr x \in D [f (x) \neq h (x)]$ $error_D (h) \equiv {\mathop{\rm Pr}}_{x \in D} \big[ f(x) \ne h(x) \big]$

5.1.2 离散值假设的置信区间

若要基于某个离散值假设 $h$ 在样本 $S$ 上观察到的样本错误率估计它的真实错误率，其中：

样本 $S$ 包含 $n$ 个样例，它们的抽取按照概率分布 $\mathcal{D}$ ，抽取过程是相互独立的，且不依赖于 $h$ ；
$n \ge 30$
假设 h 在这n个样例上犯了 r 个错误（errorS(h)=rn）；
则，可断言：
1. 没有其他信息的话， $error_\mathcal{D} (h)$ 最可能的值为 $error_S (h)$ ；
2. 有大约95%的可能性，真实错误率 $error_\mathcal{D} (h)$ 处于下面的区间内:
  $e r r o r S (h) \pm 1.96 e r r o r S ( h ) ( 1 - e r r o r S ( h ) ) n - - - - - - - - - - - - - - - - - - - - \sqrt$ $error_S (h) \pm 1.96 \sqrt{\frac{error_S (h) \big( 1 - error_S (h) \big)}{n}}$

常数1.96是由95%这一置信度确定的（见《标准正态分布双侧上分位点表》）。

定义 $z_n$ 为计算 $N\%$ 置信区间是的常数。计算 $error_\mathcal{D} (h)$ 的 $N\%$ 置信区间的一般表达式为：

e r r o r S (h) \pm z n e r r o r S ( h ) ( 1 - e r r o r S ( h ) ) n - - - - - - - - - - - - - - - - - - - - \sqrt

$error_S (h) \pm z_n \sqrt{\frac{error_S (h) \big( 1 - error_S (h) \big)}{n}}$

5.2 统计理论基础

5.2.1 二项分布

离散值假设 $h$ 在 $n$ 个样例上犯了 $r$ 个错误的概率服从二项分布:

Pr (X = r) = P (r) = n ! r ! ( n - r ) ! p r (1 - p) n - r

${\mathop{\rm Pr}}(X=r)=P(r)= \frac{n!}{r!(n−r)!} p^r (1−p)^{n−r}$
期望：

E[X]=np $E[X]=np$
标准差:

σX=np(1−p)−−−−−−−−√ $\sigma_X=\sqrt{np(1−p)}$
对于足够大的

n $n$ ，二项分布很接近有同样均值和方差的正态分布。建议只在

np(1−p)≥5 $np(1−p) \ge 5$ 时使用正态分布来近似二项分布。

5.2.2 估计偏差（Estimator Bias）

针对任意参数 $p$ 的估计量 $Y$ 的估计偏差定义为： $E[Y]−p$ 。
若估计偏差为0，称 $Y$ 为 $p$ 的无偏估计量（Unbiased Estimator）。

5.2.3 置信区间（Confidence Interval）

参数 $p$ 的 $N\%$ 置信区间是的一个以 $N\%$ 的概率包含 $p$ 的区间。
如果随机变量 $Y$ 服从均值为 $μ$ ，标准差为 $\sigma$ 的正态分布，那么 $Y$ 的任一观察值 $y$ 有 $N\%$ 的几率会落入区间: $\mu \pm z_N \sigma$ ,相似地，均值 $\mu$ 有 $N\%$ 的几率会落入区间: $y \pm z_N \sigma$ 。