【学习笔记】斯坦福大学公开课（机器学习）之学习理论.a

最新推荐文章于 2022-09-09 20:10:30 发布

好奇的大白

最新推荐文章于 2022-09-09 20:10:30 发布

阅读量273

点赞数

分类专栏：机器学习文章标签：机器学习学习理论训练误差泛化误差

本文链接：https://blog.csdn.net/li_ximin/article/details/75521522

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

偏差与方差的权衡（Bias/variance tradeoff）

关于偏差与方差的概念：
https://www.zhihu.com/question/27068705/answer/35151681

在学习线性回归时，我们遇到这样的问题，对于一个回归问题，我们是采用比较简单的模型（ $y=\theta_0+\theta_1x$ ）还是采用一个比较复杂的多项式模型（ $y=\theta_0+\theta_1x+\cdots \theta_5x^5$ ）呢？
我们先看下面一个例子：
这里写图片描述
作为五阶多项式来说（如最右图），这不是一个好的模型，虽然它能够很好的将训练数据出来，但是这存在过拟合的现象，也就是说他的泛化性不好，即训练出来的模型在训练数据上有很好的表现，但是在其他数据集中就会表现欠佳。这里有个泛化误差（generalization error）的概念，它是指存在于测试集上而不在训练集上存在的期望误差。
这里可以看到最左后两张图的泛化误差都比较大。当然两种模型一种是欠拟合，一种是过拟合。当我们用一个线性模型来预估一个不是呈线性模型的数据时，模型不会得到数据的正确特征结构。一般的，我们就会定义一个模型的偏差(bias)来代表我们预测中的泛化误差。
除了偏差(bias)，这里还有一个可以来组成泛化误差的。它是由拟合模型的方差(variance)组成，就比如最右图，五阶多项式就有很高的过拟合风险，它能把我们有限的样本数据集预测得很好，但是不能够真正表示出 $x$ 与 $y$ 的关系。所以当用这个模型去预测数据时，会得到的结果会有很大的泛化误差，就是因为模型的方差太大造成的。
通常，偏差和方差之间有一个权衡，如果我们的模型过于简单，拥有的参数比较少，那么它可能会有比较大的偏差，那么类似的，如果模型过于复杂，参数太多，它就是方差太大（而偏差较小），在上面的例子中，我们通过图形可以看到，中间的二次多项式比其它两者有更好的预测效果。

前言（Preliminaries）

接着，我们开始学习机器学习理论，我们会学习到针对不同的数据情况，怎样来选取最佳的模型，我们也会对以下一些问题做一些探讨：

对于刚刚讨论过的偏差和方差，我们应该如何权衡？这个问题最终会讨论到究竟用几次多项式来训练数据。
我们在训练模型时，一般都很注意泛化误差，但是所有模型都是通过训练集来训练模型的，为什么模型在训练集上的表现也能看出一些泛化误差的东西。或者说，模型在训练集上的误差与泛化误差有什么样的关系？
在哪些特定的条件下，能证明学习算法能表现得很好。

先来看几个引理：

假设 $A_1,A_2,A_3\cdots A_k$ 是k个不同的事件。那么我们有概率：
$P (A 1 \cup A 2 \dots A k) \leq P (A 1) + P (A 2) \dots P (A k)$ $P(A_1\cup A_2 \cdots A_k)\leq P(A_1)+P(A_2)\cdots P(A_k)$
$Z_1,Z_2,Z_3\cdots Z_m$ 是m个独立同分布事件，它们都服从伯努利分布 $Bernoulli(\phi)$ ：
$P (| ϕ - ϕ^| > γ) \leq 2 e x p (- 2 γ 2 m)$ $P(|\phi - \hat{\phi}|>\gamma)\leq 2exp(-2\gamma^2m)$
其中 $\gamma > 0$ ， $\hat\phi=(1/m)\sum_{i=1}^mZ_i$
在机器学习理论中，这个也叫作切诺夫界（Chernoff bound），从这个式子可以看出，如果我们把随机变量的均值 $\hat{\phi}$ 当作我们的 $\phi$ 的预测值，那么真实概率值离这个预测值很远的概率会比较小，只有 $m$ 足够得大。

有了以上两个引理，我们来看二分类问题。我们有训练集 $S=\{ (x^{(i)},y^{(i)});i=1,2,3\cdots m\}$ ，他们是独立同分布，并且服从概率分布 $D$ ；对于一个假设函数 $h$ ，我们定义它的训练误差(training error)为(有时也叫做经验风险(empirical risk)，经验误差(empirical error))

ε^(h)=1m∑i=1m1{h(xi)≠yi}

$\hat{\varepsilon}(h)=\frac{1}{m}\sum_{i=1}^{m}1\{h(x_i)\neq y_i\}$
再定义泛化误差：

ε (h) = P (x, y) ∽ D (h (x) \neq y)

$\varepsilon(h)=P_{(x,y)∽D}(h(x)\neq y)$
这个式子表示从概率分布

D $D$ 中抽取一个新的数据

(x,y) $(x,y)$ ，用假设函数

h $h$ 做分类结果错误

h(x)≠y $h(x)\neq y$ 的概率。
至于是线性模型，我们假设

hθ(x)=1{θTx≥0} $h_\theta(x)=1\{\theta^Tx\geq0\}$ ，那么我们怎么样来找到一个合理的方式来确定

θ $\theta$ 参数？一种方法就是最小化训练误差:

θ^= argmin θ ε^(h)

$\hat{\theta}=\operatorname*{argmin} \limits_{\theta}\hat\varepsilon(h)$
我们称这个过程是经验风险最小化(empirical risk minimization (ERM))，这个过程求出来的假设函数记为

h^=hθ^ $\hat{h}=h_{\hat{\theta}}$ 。
现在把这个理论扩展到更通用的状态，我们定义一个假设类(hypothesis class)

H $H$ ，这个类中有所有机器学习可以用的分类器，ERM就可以看做是在假设类

H $H$ 中，找到能最小化它的经验误差：

h^= argmin h \in H ε^(h)

$\hat{h}=\operatorname*{argmin}\limits_{h \in H}\hat{\varepsilon}(h)$

有限函数集 $H$ 的情况

基于以上的讨论，我们来证明一下 $\hat{h}$ 的泛化误差与训练误差有一定的联系。
证明思路大概有两个步骤，首先，我们要证明训练误差 $\hat\varepsilon(h)$ 针对所有 $h$ 的泛化误差 $\varepsilon(h)$ 都是可靠的估计，再由此引入一个 $\hat{h}$ 的泛化误差的上边界。
思考有这样一个伯努利分布随机的变量 $Z$ ，当我们从数据集 $D$ 中抽取一个样本 $(x,y)$ ，那我们的随机变量 $Z=1\{h_i(x)\neq y\}$ ，那么同样的，针对我们的训练数据集 $Z_j=1\{h_i(x^{(j)})\neq y^{(j)}\}$ ，因为 $D$ 是独立同分布，那么我们的 $Z,Z_j$ 也是同分布。
根据前面讨论的，我们可以看到泛化误差 $\varepsilon(h_i)=P_{(x,y)∽D}(h_i(x)\neq y)$ 恰好是伯努利分布 $Z$ 的期望，而训练误差 $\hat{\varepsilon}(h_i)=\frac{1}{m}\sum_{i=1}^{m}Z_j$ 又是我们随机变量 $Z_j$ 的平均值，所以我们就可以运用我们前文所说的引理2得到:

P (| ε (h i) - ε^(h i) | > γ) \leq 2 e x p (- 2 γ 2 m)

$P(|\varepsilon(h_i) - \hat\varepsilon(h_i)|>\gamma)\leq 2exp(-2\gamma^2m)$
可以看到针对我们特定的某个假设函数

hi $h_i$ ，在训练样本数量m很大的情况下，训练误差和泛化误差会有很高的概率相差无几。但是我们需要证明的是针对所有的假设函数

h $h$ 都此结论，而不是针对一个单一的假设函数

hi $h_i$ 。
为了进一步论证，我们把

|ε(hi)−ε^(hi)|>γ $|\varepsilon(h_i) - \hat\varepsilon(h_i)|>\gamma$ 假设成为事件

Ai $A_i$ ，那么我们运用上文所说的引理1：

P (\exists h i \in H . | ε (h i) - ε^(h i) | > γ) = P (A 1 \cup A 2 \dots A k) \leq \sum i = 1 k P (A i) \leq \sum i = 1 k 2 e x p (- 2 γ 2 m) = 2 k e x p (- 2 γ 2 m)

$\begin{align}P(\exists h_i\in H. |\varepsilon(h_i) - \hat\varepsilon(h_i)|>\gamma)&=P(A_1\cup A_2 \cdots A_k)\\ &\leq\sum_{i=1}^kP(A_i)\\ &\leq\sum_{i=1}^k2exp(-2\gamma^2m)\\ &=2kexp(-2\gamma^2m) \end{align}$
等式两边同时用1做被减数（等式左边有一个逻辑变换）

P (\neg \exists h i \in H . | ε (h i) - ε^(h i) | > γ) = P (\forall h \in H . | ε (h i) - ε^(h i) | \leq γ) \geq 1 - 2 k e x p (- 2 γ 2 m)

$\begin{align} P(\lnot\exists h_i\in H. |\varepsilon(h_i) - \hat\varepsilon(h_i)|>\gamma)&=P(\forall h\in H.|\varepsilon(h_i) - \hat\varepsilon(h_i)|\leq\gamma)\\ &\geq 1-2kexp(-2\gamma^2m) \end{align}$
所以可以看到对于

H $H$ 集合中任何假设函数

hi $h_i$ 的训练误差和泛化误差之间的差异小于

γ $\gamma$ 的概率是大于

1−2kexp(−2γ2m) $1-2kexp(-2\gamma^2m)$ 。
在上面的不等式中，我们看到三个变量，

γ,m $\gamma,m$ 和关于误差的概率值，这三个变量分别可以更加其他两个变量来确定。
比如说，当样本

m $m$ 需要多大的时候，我们才能保证训练出来的模型的训练误差和泛化误差的差异在

γ $\gamma$ 以内的概率大于

1−δ $1-\delta$ ？我们可以代入以上的不等式中，求得：

m \geq 1 2 γ 2 l o g 2 k δ

$m\geq\frac{1}{2\gamma^2}log\frac{2k}{\delta}$
在机器学习算法中，我们把某一模型或算法需要达到特定表现时需要的样本数量称为样本复杂度(sample complexity)
同样的，当我们知道另外两个变量，要求变量

γ $\gamma$ 的时候，我们可以得到以下不等式:

| ε (h i) - ε^(h i) | \leq 1 2 m l o g 2 k δ - - - - - - - - - \sqrt

$|\varepsilon(h_i) - \hat\varepsilon(h_i)| \leq \sqrt{\frac{1}{2m}log\frac{2k}{\delta}}$
我们如何来证明通过

h^=argminh∈Hε^(h) $\hat{h}=\operatorname*{argmin}\limits_{h \in H}\hat{\varepsilon}(h)$ 得到的模型的泛化能力呢？
先定义

h∗=argminh∈Hε(h) $h^*=argmin_{h\in H}\varepsilon(h)$ 表示在H函数集中最好的模型，那么我们就有:

ε (h^) \leq ε^(h^) + γ \leq ε^(h *) + γ \leq ε (h *) + 2 γ

$\begin{align} \varepsilon(\hat h) &\leq \hat\varepsilon(\hat h)+\gamma \\ &\leq \hat\varepsilon(h^*)+\gamma \\ &\leq \varepsilon(h^*)+2\gamma \end{align}$
把以上的结论做一个定理：

|H|=k $|H|=k$ ，已知

m,δ $m,\delta$ ，那么

ε (h^) \leq m i n h \in H ε (h) + 2 1 2 m l o g 2 k δ - - - - - - - - - \sqrt

$\varepsilon(\hat h)\leq min_{h\in H}\varepsilon(h)+2\sqrt{\frac{1}{2m}log\frac{2k}{\delta}}$

好奇的大白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】斯坦福大学公开课（机器学习）之学习理论.a

偏差与方差的权衡（Bias/variance tradeoff）在学习线性回归时，我们遇到这样的问题，对于一个回归问题，我们是采用比较简单的模型（y=θ0+θ1xy=\theta_0+\theta_1x）还是采用一个比较复杂的多项式模型（y=θ0+θ1x+⋯θ5x5y=\theta_0+\theta_1x+\cdots \theta_5x^5）呢？我们先看下面一个例子：作为五阶多项
复制链接

扫一扫