正则化参数估计

最新推荐文章于 2023-11-04 10:10:51 发布

柳叶吴钩

最新推荐文章于 2023-11-04 10:10:51 发布

阅读量1w

点赞数 5

分类专栏：神经网络与机器学习笔记文章标签：正则化

本文链接：https://blog.csdn.net/moge19/article/details/85227482

版权

神经网络与机器学习笔记专栏收录该内容

40 篇文章 11 订阅

订阅专栏

正则化参数 $\lambda$ 在径向基函数网络，最小二乘估计和支持向量机的正则化理论中起着核心作用，因此需要一个估计 $\lambda$ 的相当原理性的方法。
先考虑一个非线性回归问题：
$d_i = f(x_i)+\varepsilon _i,i=1,2,...,N \tag{式1}$
此处 $f(x_i)$ 是一条"光滑的曲线"， $\varepsilon _i$ 是一个均值为零和方差如下的白噪声过程的采样，即
$E[\varepsilon _i,\varepsilon _k] = \begin{cases} \sigma ^2, & \text {若k=i} \\ 0, & \text{否则} \end{cases} \tag{式2}$
给定一组训练样本 $\lbrace x_i，y_i \rbrace _{i=1} ^N$ ，重建该模型的固有函数 $f(x_i)$ 。
令 $F_{\lambda}(X)$ 为f(x)相对于某个正则化参数 $\lambda$ 的正则化估计，即 $F_{\lambda}(X)$ 为使表示非线性回归问题的Tikhonov泛函达到最小的最小化函数。
在这里插入图片描述
$\tag{式3}$
选择合适的 $\lambda$ ，由下述两条件加以权衡
（1）由 $DF(X)||^2$ 项来度量解的粗糙度；
（2）由 $\sum_{i=1}^N[d_i - F(x_i)]^2$ 项来度量数据的失真度。

均方误差

令 $R(\lambda)$ 表示模型的回归函数 $f (x)$ 和表示在正则化参数 $\lambda$ 某一值下的解的逼近函数 $F_{\lambda}(x)$ 之间在整个给定集合上的均方误差，即：
$R(\lambda) = \frac{1}{N} \sum _{i=1} ^N[f(x_i) - F_{\lambda}(x_i)]^2 \tag{式4}$
所谓最佳 $\lambda$ 指的是使 $R(\lambda)$ 取最小的值；
将 $F_{\lambda} (x_k)$ 表示为给定的一组可观察值的线性组合：
$F_{\lambda} = \sum _{i=1} ^N a_{ki}(\lambda)d_i \tag{式5}$
用等价的矩阵形式写成：
$F_{\lambda} = A(\lambda)d \tag{式6}$
其中 $d$ 是预期响应向量，
$F_{\lambda} = [F_{\lambda}(x_1),F_{\lambda}(x_2),...,,F_{\lambda}(x_N)]^T \tag{式7}$
且
在这里插入图片描述 $\tag{式8}$
其中N x N矩阵 $A(\lambda)$ 称为影响矩阵。
用上述矩阵符号，可以 $R(\lambda)$ 重新写成：
$R(\lambda) = \frac{1}{N} ||f - F_{\lambda}||^2 = \frac{1}{N} ||f - A({\lambda})d||^2 \tag{式9}$
其中向量N x 1的向量 $f$ 为：
$f = [f(x_1),f(x_2),...,f(x_N)]^T$
也可写成
$\varepsilon$
其中：
$\varepsilon = [ \varepsilon _1, \varepsilon _2,...., \varepsilon _N]^T \tag{式10}$
整理可得：
在这里插入图片描述 $\tag{式11}$
其中I是N x N的单位矩阵，求 $R(\lambda)$ 的期望值，需要注意：
（1）式（11）的右边第一项是一个常数，因此它不受期望算子的影响；
（2）第二项的期望为零；
（3）标量 $||A(\lambda)||^2$ 的期望为：
在这里插入图片描述 $\tag{式12}$
（4）利用矩阵代数中如下规则：给定两个具有相容维数的矩阵B和C，BC的迹等于CB的迹，
令 $=\varepsilon ^{T}$ , $A^T(\lambda)A(\lambda) \varepsilon$ 则式12可以写成：
$E[||A(\lambda) f||^2] = E[tr[ A^T(\lambda)A(\lambda) \varepsilon \varepsilon^T ]]=\sigma ^2 tr(A^2(\lambda))\tag{式13}$
上式最后一行根据（式2）可得，其中 $A^T(\lambda)A(\lambda)$ 的迹等于 $A^2(\lambda)$ 的迹。
将三项结果结合起来， $R(\lambda)$ 期望值可表示为：
$E[R(\lambda)] = \frac{1}{N} ||f - A(\lambda) f||^2 + \frac{\sigma ^2}{N} tr[A^2(\lambda)]\tag{式14}$
但是，一个给定数据集的均方误差 $R(\lambda)$ 在实际中并不好用，因其需要回归函数 $f (x)$ 的知识，它是一个有待重建的函数，因此定义如下作为 $R(\lambda)$ 的估计：
$\hat{R}(\lambda) = \frac{1}{N}||I - A(\lambda)d||^2 + \frac{\sigma ^2}{N}tr[A^2(\lambda)] - \frac{\sigma ^2}{N}tr[(I - A(\lambda))^2]\tag{式15}$
$E[\hat{R}(\lambda)] =E(R(\lambda)) \tag{式16}$

因此使得估计 $\hat{R}(\lambda)$ 最小的 $\lambda$ 值可以作为正则化参数 $\lambda$ 一个好的选择，即使得其模型均方误差最小。

但是从(式15)可以看出需要估计 $\hat{R}(\lambda)$ 还需要知道噪声方差 $\sigma ^2$ ，而实际情况中，它通常是未知的。为处理该情况，引入广义交叉验证

广义交叉验证

令 $F_i ^{[k]}(x)$ 为使泛函数最小化的函数：
$\xi _{modified}(F) = \frac{1}{2} \sum_ {i=1} ^N[d_i - F_{\lambda}(x_i)]^2 +\frac{\lambda}{2}||DF(x)||^2 \tag{式17}$
其中标准误差项中省略了第 $k$ 项 $[d_k - F_{\lambda}(x_k)]$ ，将用该项预报缺省数据点 $d_k$ 的能力来衡量参数 $\lambda$ 的好坏。因此，引入性能度量：
$V_0(\lambda) = \frac{1}{N}\sum _{k=1} ^N [d_k - F_{\lambda} ^{[k]}(x_k)]^2 \tag{式18}$
$V_0(\lambda)$ 仅依赖数据点本身，这样 $\lambda$ 的普通交叉验证估计即为 $V_0(\lambda)$ 最小化的函数。
$F_{\lambda} ^{[k]}(x_k)]$ 一个有用的性质是:
如果用预测 $F_{\lambda} ^{[k]}(x_k)$ 来代替数据点 $d_k$ 的值，使用数据点 $d_1，d_2,...,d_{k-1},d_k,...d_N$ 使式3的泛函数最小，则 $F_{\lambda} ^{[k]}(x_k)$ 就是所求的解，对于每一个输入向量 $x$ ，该性质使得 $\xi(F)$ 的最小化函数 $F_{\lambda} (x)$ 线性依赖于 $d_k$ ,这使得有：
$F_{\lambda} ^{[k]}(x_k) = F_{\lambda}(x_k) +(F_{\lambda} ^{[k]}(x_k) -d_k) \frac{\partial F_{\lambda(x_k)}}{\partial d_k} \tag{式19}$
由式5可以得出：
$\frac{\partial F_{\lambda(x_k)}}{\partial d_k} = a_{kk}(\lambda) \tag{式20}$
$a_{kk}(\lambda)$ 是影响矩阵 $A(\lambda)$ 对角线上的第 $k$ 个元素，将式20代入式19可以得到：
$F_{\lambda} ^{[k]}(x_k) = \frac{F_{\lambda}(x_k) - a_{kk}d_k}{1-a_{kk}(\lambda)} = \frac{F_{\lambda}(x_k)-d_k}{1-a_{kk}(\lambda)}+d_k \tag{式21}$
式18可重新定义成：
$V_0(\lambda) = \frac{1}{N}\sum _{k=1} ^N [\frac{F_{\lambda}(x_k)-d_k}{1-a_{kk}(\lambda)}]^2 \tag{式22}$
但是对于不同的k, $a_{kk}(\lambda)$ 的值是不同的，这说明不同的数据点在 $V_0(\lambda)$ 中具有不同的作用。为了避免通常的交叉验证的这一特性，将上式改变为：
$V_0(\lambda) = \frac{1}{N}\sum _{k=1} ^N w_k[\frac{F_{\lambda}(x_k)-d_k}{1-a_{kk}(\lambda)}]^2 \tag{式23}$
$w_k$ 的定义为：
$w_k = [\frac{1-a_{kk}(\lambda)}{\frac{1}{N} tr[I- A(\lambda)]}]^2\tag{式23}$
据此：
$V_0(\lambda) = \frac{ \frac{1}{N}\sum _{k=1} ^N (d_k - F_{\lambda}(x_k))^2}{(\frac{1}{N} tr[I - A(\lambda))^2}] \tag{式24}$
据此得到的 $V_0(\lambda)$ 仅依赖与数据d相关的数据量。

柳叶吴钩

关注

5
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
正则化参数估计

正则化参数λ\lambdaλ在径向基函数网络，最小二乘估计和支持向量机的正则化理论中起着核心作用，因此需要一个估计λ\lambdaλ的相当原理性的方法。先考虑一个非线性回归问题：di=f(xi)+εi,i=1,2,...,Nd_i = f(x_i)+\varepsilon _i,i=1,2,...,Ndi=f(xi)+εi,i=1,2,...,N此处f(xi)f(x_i)f(xi)是...
复制链接

扫一扫