正规化和模型选择(Regularization and model selection)

最新推荐文章于 2024-08-09 00:47:47 发布

y小川

最新推荐文章于 2024-08-09 00:47:47 发布

阅读量1.1k

点赞数

分类专栏： machine-learning 文章标签：特征选择交叉验证模型选择 k折叠交叉验证互信息

本文链接：https://blog.csdn.net/blackyuanc/article/details/69668589

版权

machine-learning 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

对于某个学习问题，我们如何在几种不同的模型中进行选择。例如，如果我们使用一个多项式回归模型 $h_\theta(x) = g(\theta_0 + \theta_1x + \theta_2x^2 + \ldots + \theta_kx^k)$ ，我们该如何决定多项式的最高阶数 $k$ 以最优地平衡偏差和波动？与此类似，对于局部权重回归如何选择带宽参数 $\tau$ ，对于 $\ell_1$ 正规化后的SVM算法怎么选择参数 $C$ 的值？

为了具体化，这一节中我们假设有一个有限模型集 $\mathcal{M} = \{ M_1,\ldots,M_d \}$ ，我们在模型集中进行选择， $M_i$ 即代表第i个模型。

1 交叉验证

给定某个训练集后，根据经验风险最小化，我们可能会这样进行模型选择：

每个模型 $M_i$ 都在训练集 $S$ 上进行一次训练，得到假设 $h_i$ ；
选择训练误差最小的假设

这种算法并不能得到我们想要的结果。假设多项式回归，阶数越高训练误差就会越小。因此这种方法选出的往往是一个高波动高维度的多项式模型，会导致严重的过拟合。

下面这个算法表现会好很多，称为保留交叉验证或简单交叉验证，步骤如下：

随机将训练集分为两部分 $S_{train}$ 和 $S_{cv}$ ， $S_{train}$ 占有70%的数据， $S_{cv}$ 占有30%的数据。 $S_{cv}$ 称为保留交叉验证集。
每个模型 $M_i$ 都在训练集 $S_{train}$ 上进行一次训练，得到假设 $h_i$ ；
选择运行在交叉验证集上，误差 $\hat{\varepsilon}_{S_{cv}}(h_i)$ 最小的假设 $h_i$ 。

通过测试未训练的交叉验证集数据，我们可以更好地估计各个模型预测的真实泛化误差，选择泛化误差最小的模型。普遍而言，交叉验证集占总训练集的30%。

在保留交叉验证第三步之后，我们可以考虑将产生 $h_i$ 的模型在整个训练集 $S$ 上再训练一次。一般而言这会更好，但对于一些对初始条件或数据很敏感的算法，以 $S_{train}$ 作为训练集表现得好并不意味着用 $S$ 作为训练集也会表现很好，对于这种情况我们只能放弃再训练这一步。

保留交叉验证最大的不足是它浪费了30%的数据。即使我们在最后再训练一次，这个算法依然只使用了70%的数据。在数据很丰富的时候这没什么，当数据很稀少的时候我们可能需要更好的办法。

我们引入另一种称为k次折叠交叉验证的方法，他每次的保留数据更少：

随机将 $S$ 分为k个不相交的子集，这些子集设为 $S_1,\ldots,S_k$ 。
对于每个模型 $M_i$ ，我们这样对他们进行评估：
循环k次，将 $M_i$ 在 $S_1 \cup \ldots \cup S_{j-1} \cup S_{j+1} \cup \ldots S_k$ 上进行训练得到假设 $h_{ij}$ 。
在假设 $h_{ij}$ 上测试 $S_j$ ，得到误差 $\hat{\varepsilon}_{S_{j}}(h_i)$ 。
令每个模型 $M_i$ 的估计泛化误差为 $\hat{\varepsilon}_{S_{j}}(h_i)$ 的均值。
选择估计泛化误差最小的模型 $M_i$ ，并在整个训练集上 $S$ 再训练一次，得到的假设就是最后的答案。

一般设折叠次数 $k = 10$ ，这样每次数据的保留部分相比保留交叉验证大幅缩小了，当然由于要训练k次计算成本增加了。尽管 $k = 10$ 是普遍情形，在训练数据极端稀少的时候，我们也可以让 $k = m$ ，即每次仅保留一个数据用以验证，这种方法称为留一交叉验证。

最后，尽管我们介绍了几种交叉验证的方法用以选择模型。实际用交叉验证来评估单个模型或算法的预测效果也很不错。

2 特征选择

在模型选择中有一种特殊且重要的部分叫特征选择。想象一下如果我们的监督式学习问题中特征数 $n$ 的值非常大，但我们怀疑其中只有部分特征是和我们的学习目标相关的。即使使用简单线性分类器，假设类的VC维依然会有 $O (n)$ ，因此过拟合是一个大问题除非训练集非常大才能避免。

要解决这个问题，你可以使用特征选择算法减少特征数量。有 $n$ 个特征就意味着有 $2^n$ 个特征子集，所以特征选择也可看成有 $2^n$ 个模型的模型选择问题。当 $n$ 的值很大时，是无法通过枚举的方法准确地比较 $2^n$ 个模型的，所以一般会使用一些启发式搜索算法来寻找好的特征子集。下面这个搜索步骤称为前向搜索：

初始化令特征集 $\mathcal{F} = \emptyset$ ；
重复｛
(a) 循环i次，如果 $\notin \mathcal{F}$ ，则让 $\mathcal{F}_i = \mathcal{F} \cup \{i\}$ ，并使用交叉验证来评估特征$\mathcal{F}_i $； (b) 令$ \mathcal{F}$等于(a)中所有特征子集中最好那一个。
｝
选择并输出整个搜索过程中表现最好的特征子集。

这个算法的外层循环，在 $\mathcal{F}$ 包含所有特征或达到你设定的阈值时停止。该算法是封装模型特征选择的实例化，它的每个步骤都在包装你的学习算法并评估不同的特征子集。除了前向搜索，还有其他的特征搜索算法，比如后向搜索算法，它从 $\mathcal{F} = \{1,\ldots,n\}$ 开始每次去掉一个特征，直到特征集为空。

过滤器特征选择是一个启发式的方法，只需很少的计算成本就能找到特征子集。它的核心是计算一些评分 $S (i)$ ， $S (i)$ 是每个特征 $x_i$ 对类标签 $y$ 的影响的评分，最后挑选得分最高的k个特征组成特征子集。

一种选择使用 $x_i$ 和 $y$ 之间的相关性来描述 $S (i)$ 。实际中，我们一般（尤其在特征 $x_i$ 是离散值时）使用互信息 $M_i(x_i,y)$ 作为 $S (i)$ 评分：

$M_i(x_i,y) = \sum_{x_i \in \{ 0,1 \}} \sum_{y \in \{ 0,1 \}} p(x_i,y)log \frac{p(x_i,y)}{p(x_i)p(y)}.$

这些概率 $p(x_i,y),p(x_i),p(y)$ 都可以通过训练集上的经验分布来估计。为了让概率更直观，我们可以使用KL散度来刻画相互信息：

$M_i(x_i,y) = \mathrm{KL}(p(x_i,y)||p(x_i)p(y))$

你可能不清楚什么是KL散度，简要来说它描述 $p(x_i,y)$ 同 $p(x_i)p(y)$ 之间的差别有多大。当 $x_i$ 和 $y$ 之间相关性很小时（即 $p(x_i,y) = p(x_i)p(y)$ ），KL的值很小；反之，KL的值就会很大。最后一个需要注意的细节是我们如何选择最后的特征数 $k$ 的值，标准方法是使用交叉验证的方法开寻找合适的 $k$ 值。