CS229 Lecture 10

最新推荐文章于 2020-09-18 21:06:49 发布

Light_blue_love

最新推荐文章于 2020-09-18 21:06:49 发布

阅读量316

点赞数

分类专栏： CS229

本文链接：https://blog.csdn.net/Light_blue_love/article/details/100997958

版权

CS229 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

CS229 Lecture 10

课程要点：

VC 维
模型选择-交叉验证
特征选择

回顾上节课

推论：假设 $\mathcal{H}$ 的大小为 $k$ 且 $\gamma$ 和 $\sigma$ 固定，那么对于在至少 $1-\sigma$ 的概率下 $\varepsilon(\hat h)\le min_{h\in \mathcal{H}}\varepsilon(h)+2\gamma$ ,需要 $m$ 满足：
$m\ge\frac{1}{2\gamma^2}log\frac{2k}{\sigma}=O(\frac{1}{\gamma^2}log\frac{k}{\sigma})$

$\mathcal{H}$ 为无限大

前面对于 $\mathcal{H}$ 的设定其大小为 $k$ ，而现在需要考虑当 $\mathcal{H}$ 为无限大的情形。对于无限大的设定是否还有相似的结果。

课上的一个例子为：假设 $\mathcal{H}$ 是由 $d$ 个实数组成的假设，且假设计算机中是用64bit来表示一个浮点数的，那么对于这个 $\mathcal{H}$ 最多拥有 $2^{64d}$ 种可能。对于上面的推论，为了保证至少 $1-\sigma$ 的概率有 $\varepsilon(\hat h)\le \varepsilon(h^{*})+2\gamma$ ,那么需要样本数 $m\ge O(\frac{1}{\gamma^2}log\frac{2^{64d}}{\sigma})=O(\frac{d}{\gamma^2}log\frac{1}{\sigma})=O_{\gamma,\sigma}(d)$ ,由此可以看出样本数目大致和参数的个数呈现一定的线性关系。

VC维(Vapnik-Chervonenkis dimension)

对于一个点集合 $S=\{x^{(1)},x^{(2)},\cdots,x^{(d)}\}$ ,如果我们对于这些点赋予任意标签, $\mathcal{H}$ 中的 $h$ 均能将其分开，我们说 $\mathcal{H}$ 可以“打碎”这个点集 $S$ 。 $\mathcal{H}$ 能打碎的点集大小被称为 $\mathcal{H}$ 的VC维,记为： $VC(\mathcal{H})$ 。

注：对于 $VC(\mathcal{H})$ 的大小并不是说对于几个点任意空间位置都需要"打碎"，而是这 $VC(\mathcal{H})$ 个点在某种空间位置能被打碎即可。

在这里插入图片描述
观察上图可知三个点最复杂的空间特征便是三个点呈现三角型，然后给各个点赋予不同的标签，可以知道存在8种情形，被在 $\mathcal{H}$ 是可以找到直线将这些不同的情形划分开。对于我手画的三个点排列乘一条直线，中间的点为叉，在这种情况下在二维平面是无法找到一条直线可以将这样的类别划分开。但是这并不影响 $\mathcal{H}\{在2D平面的分类器\}$ ， $VC(\mathcal{H})=3$

通常,VC(n 维空间的分类器)=n+1

对于VC维的知识可以看看林轩田《机器学习基石》里面的讲解，个人感觉比 $n g$ 的更详细，也更好理解。

关于VC维的理论

给定 $\mathcal{H}$ 且 $VC(\mathcal{H})=d$ ,在至少 $1-\sigma$ 的概率我们可以确定:

$\forall h\in \mathcal{H} \,\,\,\,|\varepsilon(h)-\hat\varepsilon(h)|\le O(\sqrt{\frac{d}{m}log\frac{m}{d}+\frac{1}{m}log\frac{1}{\sigma}})$

因此有至少 $1-\sigma$ 的概率我们可以确定:

$\varepsilon(\hat h)\le \varepsilon(h^{*})+ O(\sqrt{\frac{d}{m}log\frac{m}{d}+\frac{1}{m}log\frac{1}{\sigma}})$

推论：

对于 $h\in \mathcal{H}$ 中所有的 $h$ 可以使得至少在 $1-\sigma$ 的概率有 $|\varepsilon(h)-\hat\varepsilon(h)|\le\gamma$ ，那么样本复杂度需要满足 $m=O_{\gamma,\sigma}(d)$ 。

实际上 $V C$ 维既决定了样本复杂度的上界也决定了其下界，如过样本数目过少，上面的推论自然得不到保证。

我们直到在前面的 $S V M$ 课程中说过可以通过核函数将特征映射到高维度空间中，那么 $S V M$ 为何不会出现过拟合？

是因为 $S V M$ 分类器和样本之间是有间隔的,对于一批样本点如果 $||x||\le R$ ,那么 $S V M$ 对应的 $V C$ 维满足 $VC(\mathcal{H})\le \lceil\frac{R^{2}}{4\gamma^2}\rceil+1$ ，进而保证不会出现过拟合。

在这里插入图片描述
上图中横轴为 $\theta^Tx$ ,黑色线段为跳跃函数的图像， $1\{h_{\theta}(x)\neq y\}$ ,其中 $h_{\theta}(x)=g(\theta^Tx)$ ，灰色函数为 $logp(y^{(i)}|x^{(i)};\theta)$ ，假设现在有一个样本 $y = 0$ ,那么如果 $\theta^Tx>0$ ，就会使得 $E R M$ =1。

对于分类算法，我们的目的就是使得分类算法对于未知样本可以正确预测使得 $h_{\theta}(x)= y$ ,我们的目的就是降低 $h_{\theta}(x)\neq y$ ,因此我们将这种不等的情况作为我们力求优化的函数，但是由于这种阶梯函数是非凸的，因此是一个NP hard问题，因此我们只能力求用一个凸函数来模拟这种情况，可以看到灰色函数是逻辑回归的表示，似然函数优化的目标就是在样本 $x^{(i)}$ 出现的情况下 $y^{(i)}$ 的要以最大概率出现，它是对ERM(经验风险最小)的一种近似。同理红色函数图像是支持向量集优化函数的异种模拟近似。

模型选择

对于线性回归我们需要选择一个模型来拟合这些数据，现在有个问题就是我到底该选择那种模型？通过前面的课程我们知道泛化误差先随着模型复杂度的增加减小，当超过某个复杂度后，泛化误差会渐渐变大。使得训练出来的模型对于数据的预测效果变差。

$\theta_0+\theta_1x$

$\theta_0+\theta_1x+\theta_2x^2$

$\vdots$

$\theta_0+\theta_1x+\theta_2x^2+\cdots+\theta_{10}x^{10}$

以及前面学到的模型中的超参数的选择如：在局部加权回归中的带宽参数 $\tau$ ，SVM中 $min\,\,\frac{1}{2}||w||^2+C\sum\zeta$ 中的 $C$ 。

交叉验证：

现有一个模型集合 $\mathcal{M}=\{M_1,\cdots,M_d\}$ ,例如 $M_i$ 就是 $i$ 次多项式，那么如何选择模型？

留出法(Hold-out)交叉验证：

将数据集劈成70%的训练集 $S_{train}$ , 30%的验证集 $S_{cv}$
在训练集上训练每个模型，然后在验证集上验证
调训出在验证集上表现误差最小的模型，然后重新训练(可选)

K折交叉验证

将数据切分为K等份，然后每次抽取1份作为验证集，剩下的作为训练集，不停更换验证集，将K次验证的误差平均
同理选取误差最小的模型

留一交叉验证

留一交叉验证和K折交叉验证原理基本一样，不同的是这里将样本切分为 $m$ 份，留下一个样本做验证，剩下 $m - 1$ 个做训练，更换不同的验证样本重复 $m$ 次，平均验证误差

可以看出K折交叉验证和留一交叉验证十分消耗计算，但是对于样本获得十分昂贵的情况，比较适用，比如说一共就16个样本，那么直接用30%做验证有点过于昂贵了，留一交叉验证就比较好。训练的时候还是使用了大多数样本进行训练。

特征选择

特征选择实际上属于模型选择的一种特殊情况。假设现在有 $m$ 条数据，每条数据的特征数为 $n$ ，且 $n\gg m$ ,那么在这种情况下训练出来的模型很容易出现过拟合，假设仅仅有一部分特征是与学习任务有关的。那么有什么办法选出这些与学习任务相关的特征来呢？

一种选取特征的方法是，如果有 $n$ 个特征，那么就有 $2^n$ 个特征选取方式，也就相当于有 $2^n$ 个模型，在这 $2^n$ 个模型做交叉验证，选取误差最小的那个。看似可行，但实际不具有操作性，因为训练 $2^n$ 个模型计算量的消耗太过巨大，完全不现实。有一种启发式的过程被用于特征选取，这个搜索算法成为前向搜索。

前向搜索

Initialize $\mathcal{F}$ = $\emptyset$ .
Repeat {
(a)For i=1,…,n if i $\notin$ $\mathcal{F}$ ,let $\mathcal{F}_i$ = $\mathcal{F}$ ∪{i},and use som eversion of cross validation to evaluate features $\mathcal{F}_i$ . (I.e., train your learning algorithm using only the features in $\mathcal{F}_i$ , and estimate its generalization error.)
(b) Set $\mathcal{F}$ to be the best feature subset found on step (a). }
Select and output the best feature subset that was evaluated during the entire search procedure.

上面算法中循环的退出条件为要么循环完 $n$ 个特征，要么找到了所需的最大特征数目然后退出。

与前向搜索不同的是后向搜索是从 $\mathcal{F}=\{1,2,\cdots,n\}$ 开始，然后循环，在训练里逐个删除每个特征用交叉验证的方式评估删除该特征后的误差，找到最不相关的特征进行删除，继续外层循环，直到删除到用户设定保留的特征个数或者说删除到 $\mathcal{F}=\emptyset$ 结束。