（光滑样条）Smoothing spline的数学推导-CSDN博客

本文深入解析Smoothingspline的数学推导，介绍了光滑样条在拟合误差基础上加入光滑因子λ的作用，及其对函数平滑度的影响。通过矩阵形式表示光滑样条的计算公式，详细推导了RSS(θ,λ)的表达式，并解释了如何通过求导得到最优参数θ^。文章还探讨了光滑样条的有效自由度dfλ的定义，以及参数λ的选择方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Smoothing spline的数学推导

参考斯坦福统计学习原理
光滑样条的精髓在于在原本的拟合误差的基础上加了一个

\lambda\int\left\{f^{&#x27;&#x27;}(t)\right\}^{2}dt

,这样就有人问，为什么这个能达到光滑的作用，如果能达到光滑的作用，那么他的光滑效果怎么衡量。以及如何选择参数

\lambda

的问题

一般的不加入光滑因子的拟合误差如下式：
$RSS(f,\lambda)=\sum_{i=1}^{N}\left\{y_{i}-f(x_{i})\right\}^{2}$ 引入 $\lambda光滑因子式均方误差$
$RSS(f,\lambda)=\sum_{i=1}^{N}\left\{y_{i}-f(x_{i})\right\}^{2}+\lambda\int\left\{f^{''}(t)\right\}^{2}dt$ 其中， $f(x)=\sum_{j=1}^{N}N_{j}(x)\theta_{j}$ ，对上式用矩阵的形式表示可得如下形式：
$RSS(\theta,\lambda) = (y-N\theta)^{T}(y-N\theta)+\lambda\theta^{T}\Omega_{N}\theta$ 其中， $\left\{N\right\}_{ij}=N_{j}(x_i)$ , $\left\{\Omega_{N}\right\}_{ij}=\int N_{j}^{''}N_{k}^{''}dt$ ，我相信有一部分同学觉得公式来的太突然。当我们将前面 $f(x)=\sum_{j=1}^{N}N_{j}(x)\theta_{j}$ 代入 $R S S$ 的计算公式中，将 $\left\{f^{''}(t)\right\}^{2}$ 分解成 $f^{''}(t)*f^{''}(t)$ 根据矩阵的一些乘积变换即可得到 $RSS(\theta,\lambda)$
然后对 $\theta$ 求导等于0,也就是最小二乘法的思想
$\hat{\theta}=(N^{T}N+\lambda\Omega_{N})^{-1}N^{T}y$ 将我们得到的 $\hat\theta$ 带入原来的拟合函数可得 $\hat{f}(x)=\sum_{j=1}^{N}N_{j}(x)\hat{\theta_{j}}$
$- - - - - - - - - - - - - - - - - 分割线 - - - - - - - - - - - - - - - -$
在我们进行接下来的分析前我们先回顾一下未引入光滑参数的情况，并一次来探讨自由度和光滑矩阵的问题：
设B是一个N*M的矩阵，N代表有N观测点
此时 $\hat f = B(B^{T}B)^{-1}B^{T}y=Hy$
矩阵H具有对称，半正定的性质，类似的矩阵 $S_{\lambda}$ 也具有对称半正定的性质。
矩阵H还是幂等矩阵，所以 $H * H = H$ 这点不难证明，只需要乘一次就能得到，幂等矩阵具有特征值非1即0的性质，而 $S_{\lambda}*S{_{\lambda}}<=S_{\lambda}$ ，在这里也能看到矩阵 $S_{\lambda}$ 有着压缩的作用。
矩阵H秩为M，矩阵S的秩为N，在投影空间中M=trace(H)，这也是基础函数的个数，类似的我们定义光滑样条的有效自由度为： $df_{\lambda}=trace(S_{\lambda})$
有很多讨论支持有效自由度的定义，下面进行讨论：
将 $S_{\lambda}$ 写成 $R e i n s h$ 形式：
$S_{\lambda}=N(N^{T}N+\lambda\Omega_{N})N^{T}\\ =N(N^{T}[I+\lambda N{-T}\Omega_{N}N^{-1}]N)^{-1}N^{T}\\ =(I+\lambda N^{-T}\Omega_{N}N^{-1})^{-1}$ 也就是说矩阵 $S_{\lambda}$ 可以写成如下形式
$S_{\lambda}=(I-\lambda K)^{-1}$
此时 $RSS(f)=(y-f)^{T}(y-f)+\lambda f^{T}Kf$ ，最小化RSS的 $\hat f=S_{\lambda}y$ 。
由于矩阵S的对称半正定性质，所以对其进行特征分解：
$S_{\lambda}=\sum\limits_{k=1}^{N}\rho_{k}(\lambda)u_{k}u_{k}^{T}$
其中， $\rho_{k}(\lambda)=\frac{1}{1+\lambda d_{k}}$ ,这里的 $d_{k}$ 是矩阵K的特征值。

此时我们可以对 $\hat f$ 重新写成： $\hat f=S_{\lambda}y=\sum\limits_{k=1}^{N}\rho_{k}(\lambda)u_{k}u_{k}^{T}y$ ,这里可以看作 $u_{k}$ 对y的分解。
引入下面一张图片，对这里所说的特征向量进行说明：
在这里插入图片描述
从这张图中我们可以看到随着特征值的减少，矩阵的特征向量越复杂，但同时也在压缩，这也就是为什么矩阵的特征值能达到压缩自由度的原因，而且特征向量与参数 $\lambda$ 无关。
关于参数 $\lambda$ 大小的选取（这里仅仅给出R语言的实现，具体证明有空再写）：
1：固定有效自由度，反解出其大小
在这里插入图片描述
2：利用留一交叉验证进行求解

在这里插入图片描述