学习理论之经验风险最小化——Andrew Ng机器学习笔记（七）

最新推荐文章于 2024-03-05 19:11:34 发布

A_cainiao_A

最新推荐文章于 2024-03-05 19:11:34 发布

阅读量6.1k

点赞数 2

分类专栏：机器学习文章标签：机器学习经验风险最小算法

本文链接：https://blog.csdn.net/xiaocainiaodeboke/article/details/50472367

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

内容提要

到现在监督式学习已经基本上学完了，这篇博客主要想写的是一些关于机器学习的理论，即什么时候用什么学习算法，什么样的学习算法有什么样的特点或者优点。在拟合的时候应该怎么选取拟合模型实际上是在欠拟合和过拟合之间做着权衡，我们训练集大小为多大时合适，最终得到的拟合函数效果怎么样，它的效果如何评价等等，下面我们主要介绍的经验风险最小理论，就是来回答这些问题。

经验风险最小

为了说明经验风险最小，我们首先介绍两个定理：

(The union bound)假设 $A_1,A_2...A_k$ 是 $k$ 个不同的事件，那么 $P(A_1 \cup A_2 \cup ...\cup A_k) \leq P(A_1)+P(A_2)+...+P(A_k)$ 。你可以画一个文氏图去理解他。
(Hoeffding inequality)假设 $Z_1,Z_2...Z_m$ 是 $m$ 个独立同分布（iid）服从伯努利分布的变量，参数为 $\phi$ 。即 $p(Z_i = 1) = \phi,p(Z_i = 0) = 1 - \phi$ ，令 $\hat \phi = (1/m) \sum_{i = 1}^{m}Z_i$ ， $\hat \phi$ 也是随机变量，对于任意的 $\gamma \gt 0$ ，则有 $P(|\phi - \hat \phi| \gt \gamma) \le 2exp(-2\gamma^2m)$

Hoeffding inequality说明了伯努利分布参数的估计值与真值之间的误差是有上限的，并且可以看出随着 $m$ 的增大，这个上限会越来越小，也就是说估计值越来越接近真值。

我们还是利用二维分类问题来说明这个理论， $y \in \{0,1\}$ ，训练集 $S = \{x^{(i)},x^{(j)};i = 1,2, ... m\}$ ，并且 $(x^{(i)},x^{(j)})$ 均是来自分布 $D$ 的独立同分布变量， $h$ 为估计函数，我们定义训练误差（training error or empirical risk or empirical error）如下：

其实这个式子描述就是分类出错的比例，其中，1{.}指示器函数，即 1{true}=1;1{false}=0， $y \in \{0,1\} ,m$ 是训练集的大小，即训练样本的个数。

同样的我们也定义一般误差（generalization error）：

这个误差是我们理论上计算出来的误差，一般的在统计中带有“ ^ ”表示的估计量，估计的意思就是我们通过样本来计算这个变量的值。反之，一般理论值就不带“ ^ ”。

我们之前介绍过线性分类函数的一般形式， $h_\theta(x) = \theta^Tx$ ，下载我们假设这样一个集合：

称为：假设集合（hypothesis class）。这是一个分类函数集合，因为 $\theta$ 的不同使得各个元素不同，分类函数可能是局部回归得到，逻辑回归得到的等等，总之可以解决我们当前问题的我们可以得到的分类函数。那么我们就像找出那个使得训练误差最小的 $\theta$ 作为我们分类函数的参数。

我们将这个过程称为：经验风险最小（empirical risk minimization (ERM)）。和这个式子同样的道理我们可以得到训练情况下最优的分类函数。

下面我们就依照假设集合 $H$ 有限还是无限两方面进行讨论

H集合有限的情况

设假设集合中总共有 $k$ 个假设函数，即 $H = \{h_1,h_2...h_k\}$ ，这些函数 $h$ 都是从 $x$ 到 $\{0,1\}$ 的映射。为了书写方便我们定义：

我们研究的问题 $(x,y) \sim D， h_i \in H$ ，则 $Z$ 就是独立同分布变量。下来就可以将训练误差表示成：

$Z$ 是服从伯努利分布的，他的期望是 $\varepsilon(h_i)$ ，利用Hoeffding不等式就可以得到下面的式子：

这个式子表明随着训练样本个数 $m$ 的增大，训练误差是逐渐接近理论误差的。我们又令

则：

结合union bound进一步我们可以做出如下的推导：

利用基本的概率只是我们又可以得到下面的式子：

从这个式子可以看出理论误差和训练误差是有一个上界的。这一我们在这讨论的一个原因，我们想知道这个上界。除此之外，我们还想知道后面的这个概率是多少。我们前面说了，随着训练集大小 $m$ 的增大，理论误差和训练误差在接近，并且是依一定的概率。我们也想知道给了一定的误差概率之后，我们的 $m$ 到底取多大是合适的。

在给定 $\gamma$ 的前提下，令

可以得到，当

可以保证对于任意的 $h_i \in H, |\varepsilon(h_i) - \hat \varepsilon(h_i)| \le \gamma$ 的概率下界是 $1 - \delta$ 。在这里可以看出，训练集 $m$ 的大小影响着算法的有效性，所以我们也将他称之为算法的样本复杂度。

同样的在给定 $\delta$ 的情况下，我们可以得到训练误差和理论误差的上界：

其中

下来我们在定义：

$h^*$ 是 $H$ 中最合理的假设函数，那么我们可以得到下面的推导：

经过上面的这些证明，我们可以得到这样一个定理：当 $|H| = k,\forall m,\delta$ 时，有：

推论： $|H| = k,\forall m,\delta$ 时，为了

则：

H集合无线的情况

首先我们来介绍分散的概念：给定一个集合 $S = \{x^{(i)},...,x^{(d)}\}$ ,如果假设集H中存在 $h_i$ 可以将S中的所有点按标签分开（ $\{y^{(1)},...,y^{(d)}\}$ ），我们就说H可以分散S

VC维（Vapnik-Chervonenkis dimension）：给定一个假设集合H，这个H可以分散集合S的最大个数为VC维，记为 $VC（H） = d$ ，如果H可以将任意的S分散，我们就说这个H的VC为无穷大，记为 $VC(H) = \infty$

举一个简单的例子：假如S中有3个点，给定一个线性分类函数的假设集合， $y \in \{0,1\}$ ，我们总是可以找到一条直线将正负标签的点分隔开来。如下图：

需要说明的是，这是一种存在性的计算。意思就是只要这三个点给定一个排列方式，然后取遍所有标签的情况，我们都可以在这个假设集合H中找到 $h_i$ 将他们完美的分隔开来。只要存在这么一种情况，并且再增加一个点这个结论就不成立了。比如这个例子中，当点增加至4个时，就不满足上面的情况（你随便画画，就可以看到当这个点根据y的不同进行重组时，是无法用一条直线将他们分开的）。所以说线性假设集的VC维维3

下面再来看一个定理，这是数学家证明的，过程比较复杂，所以我们只看结论。
给定一个假设集H，并且VC（H） = d，在至少满足 $1 - \delta$ 这个概率的情况下，我们可以在H中找到一个h满足下面这个不等式：

和前面一样我们可以得到下面这个不等式：

从这个式子可以看出来，当VC维是有限的情况下，当m趋于无穷大的时候，训练误差是收敛的。我们也可以得到如下的推论：
对于H中的所有h， $|\varepsilon(h) - \hat \varepsilon(h)| \le \gamma$ 至少以 $1-\delta$ 的概率成立，所以 $m = O_{\gamma,\delta}(d)$