ESL第五章 基扩张和正则化 【自然】三次样条/似然比检验/自然正则化、自由度/光滑矩阵/收缩光滑/局部拟合/等价核、非参逻辑回归、多维张量积/加性样条、RKHS/径向基、小波光滑/自适应滤波、B样条

5.1 导言

  • P140 高阶项其实是泰勒展开的高次项
  • P140 三种方法控制模型复杂度:(这一块感觉和2.8节有关联)
  1. 限制方法,限制函数类别,例如加性模型
  2. 选择方法,选择基的字典中对拟合显著的基. 像 CART,MARS 和 boosting 这些逐步贪婪的方式也划为这一类.
  3. 正则化方法,例如ridge regression. lasso既是正则化、又是选择方法,

5.2 分段多项式和样条

  • P141 分段常数函数、分段线性函数、连续分段线性函数及其构造
  • P143 三次样条cubic spline,二阶导数连续. 书上给了详细的形式. 据说三次样条是人眼看不出结点不连续的最低阶样条.这些固定结点样条称为 回归样条regression splines
  • P144 M M M-order, K K K个结点的光滑样条,需要 M + K M+K M+K个自由度。所以可以通过固定自由度总数,不固定阶数和结点数的方式来调参
  • P144 特定order以及结点序列的样条函数的空间是向量空间,所以表示它们会有许多等价的基底

5.2.1 自然三次样条Natural Cubic Splines

  • P144 三次样条在边界的逐点方差pairwise variance容易爆炸,而且外推不好。自然三次样条缓解了这一问题。自然三次样条向边界外施加线性假设,从而扣掉4个自由度(两侧边界各两个限制条件)。这4个自由度可以通过在内部多选4个结点knots获得更多收益。边界会抬高bias,但是线性假设通常是合理的假设

5.2.2 例子:南非心脏病

  • P146 似然比检验likelihood-ratio test(偏差检验deviance test)。只提到了下
  • P146 逻辑回归的预测区间(用逐点方差算的,应该不是置信区间)

5.2.3 例子:音素识别

  • P150 特征如果有很多,而且是有序的(例如音素的频率采样)。因为相邻特征自相关很严重,导致逻辑回归学出的系数抖动很厉害。可以对特征系数进行自然正则化natural regularization,强制让特征系数作为频率的函数均匀变化(这里有把特征系数搞成一个光滑泛函的意思)。自然三次样条是很好的选择,这样也能避免过拟合。如果有 p p p个特征,样条有 M M M个基,则基函数为 H ∈ R p × M \bm H\in \mathbb R^{p\times M} HRp×M,记拟合得到参数 θ ∈ R M \theta \in \mathbb R^M θRM,对于输入特征 x ∈ R p x\in \mathbb R^p xRp,线性预测为 x T H θ x^T\bm H \theta xTHθ. 所以可先输入进行变换 x ∗ = H T x x^*=\bm H^T x x=HTx,然后再线性拟合拟合 θ \theta θ. (这里样条函数居然被用于降维,这也太神奇了。这我感觉有点像是对输入进行傅里叶变换的低通滤波)
    按照原先,则是先学 H T θ \bm H^T\theta HTθ,然后再用它学 θ \theta θ. 现在只用拟合一步!

5.4 光滑样条

  • P151 光滑样条smoothing splines避免选择结点个数和位置,为所有二阶导存在的函数中,最小的带二阶导正则惩罚项的残差平方和。可以证明解满足在所有特征位置 x i ,   i = 1 , … , N x_i, \ i=1,\dots, N xi, i=1,,N为结点的自然三次样条。其系数参数形式与L2回归类似

5.4.1 自由度和光滑矩阵

  • P153 预先选择了 λ \lambda λ的光滑样条是线性光滑linear smoother 的一个例子(如在线性算子中一样). 因为估计参数是 y i y_i yi 的线性组合
  • P153 光滑矩阵smoother matrix S λ \bm S_\lambda Sλ,光滑矩阵一定满秩,为样本个数 N N N,因为样本基扩张后的矩阵 N \bm N N一定满秩(后者参考https://github.com/szcf-weiya/ESL-CN/issues/35,我还没有证)
  • P153 带L2的解析解里 y y y前面的矩阵不是投影矩阵啊,满足 S S ⪯ S \bm S \bm S \preceq \bm S SSS
  • P154 自由度有效数量effective degrees of freedom的定义 d f λ = t r ( S λ ) df_\lambda=tr(\bm S_\lambda) dfλ=tr(Sλ),后文Reinsch form说明了这么定义的合理性(惩罚矩阵penalty matrix). 增加 λ \lambda λ不改变 S λ \bm S_\lambda Sλ特征向量,但是压缩特征值
  • P156 光滑样条和传统基回归样条(给定基)的区别。光滑样条可以看作是一种收缩光滑器shrinking smoothers,基回归样条则是一种投影光滑器
  • P156 随着 S λ \bm S_\lambda Sλ特征值减小,对应特征向量的序列越复杂,穿过0点的次数依次增多。我也不知道为啥。。
  • P156 光滑样条是一种局部拟合方法,类似局部加权回归locally weighted regression procedures,并把 S λ \bm S_\lambda Sλ的行,称为等价核equivalent kernels
    在这里插入图片描述

5.5 自动选光滑超参

5.5.1 固定自由度

  • P158 固定自由度。自由度选多少,可能尝试根据近似F检验,残差图以及其它客观准则来选择。通过固定自由度,能更统一来比较许多不同方法

5.5.2 Bias-Variance Trade-off

  • P158, 160 计算训练集的逐点拟合方差和偏差,对于新来的测试点也能算(习题5.10)
  • P160 由于不知道真实函数,所以无法得到EPE(expected prediction error),从而用K-fold CV,GCV之类的方法估计。CV是EPE的近似无偏估计
  • P160 公式5.27还给出了算留一法CV的计算式,不需要每次重新拟合

5.6 非参数逻辑回归

  • P161 逻辑回归中也可以引入光滑样条
    在这里插入图片描述
    并且类似 5.4 节的参数证明,最优的 f f f是结点在无重复的 x x x处的有限维自然样条
  • P162 用IRLS求解,解类似L2逻辑回归的形式,可以理解成每一步拟合了加权光滑样条
  • 有参模型和非参模型:有参模型例如线性回归。非参模型中 f f f是一个函数,没有参数,例如样条的求解。这里逻辑回归中,我们没有显式给出 f f f的形式,只是上了二阶导数的正则约束,就进行了求解,所以是非参数逻辑回归。此外,还有半参模型,例如 y = α + β x + f ( x ) y=\alpha + \beta x+f(x) y=α+βx+f(x)

5.7 多维样条

  • P162 多维可采用张量积基地tensor product basis
  • P165 一维光滑样条(通过正则化)可以推广到高维。正则化项有一个自然推广
  • P165 thin-plate样条TPS,与一维三次光滑样条有很多相同性质。其解有径向基函数radial basis functions的形式
  • P165 避免选用N个结点,这样在高维上会有不少无效区域。可以用格点lattice的方式选出有效的基函数
  • P167 加性样条模型additive spline models的讨论(比张量基tensor product的模型要简单)
  • P167 ANOVA样条分解

5.8 正则化和再生核希尔伯特空间理论

  • P168 一般的正则化问题形式化(这里介绍的非常快,自己也缺乏相关知识)

5.8.1 核产生的函数空间

  • P168 再生核希尔伯特空间RKHS(reproducting kernel Hilbert space),如果把 f f f限制在 f ( ⋅ ) = ∑ m α m K ( ⋅ , y m ) f(\cdot)=\sum_m \alpha_m K(\cdot, y_m) f()=mαmK(,ym)的形式(仔细看这个形式,核函数不变,但核函数中第二个自变量可以随意变),求解带范数(希尔伯特空间的范数)正则化的目标,那么理论上能推出 f ( ⋅ ) = ∑ i = 1 N α i K ( ⋅ , x i ) f(\cdot)=\sum_{i=1}^N \alpha_i K(\cdot, x_i) f()=i=1NαiK(,xi),从而问题转化为
    在这里插入图片描述
    这使得无限维解空间的问题转化为有限维
    (这一块非常抽象,还涉及到Mercer’s theorem,要看书,统计学习方法第七章也值得看)
  • P170 这类模型的贝叶斯解释,用高斯过程
  • P170 此外,讨论了如果某些组分单独保留下来,惩罚项要设计成 H \mathcal H H到子空间 H 1 \mathcal H_1 H1上的投影,解的形式翻书……

5.8.2 RKHS的例子

  • P170 最小二乘的例子
  • P171 多项式回归的例子(没看懂)
  • P172 高斯径向基函数(没看懂,尤其是串0次数,为什么会有那个规律)
  • P174 支持向量分类器,根据支持向量的稀疏性,这里 f ^ \hat f f^ K ( ⋅ , x i ) K(\cdot, x_i) K(,xi)的子集展开

5.9 小波光滑

  • P175 时间和频率的局部化time and frequency localization. 傅里叶基只有频率局部化
  • P175 Daubechies symmlet-8小波更光滑,同样具有正交性(参考《数字图像处理》——冈萨雷斯,7.10.5节
  • P176 把比较小的小波系数收缩成0,从而得到光滑曲线

5.9.1 小波基和小波变换

  • P179 在symmlet-p小波中,一个基函数要占 2 p − 1 2p-1 2p1个区间长度。此外,小波函数的低于 p p p阶矩为0,导致对于不大于p次多项式,在 V J \bm V_J VJ空间的结果和在 V 0 \bm V_0 V0空间一样。而 V 0 \bm V_0 V0其实是充当了光滑样条惩罚的零空间。Haar小波有一个消失的矩, V 0 \bm V_0 V0 可以表示任意常值函数.

5.9.2 自适应小波滤波

  • P179 SURE shringage,和L1很像。其中变换矩阵 W \bm W W是正交的
  • P180 其实 W \bm W W可以是任意的基,小波的特殊性在于时域和频域的局部性
  • P180 小波的更数学的理解揭示了在特定尺度上小波有一个限制在有限区域或频率的信频 (octave) 上的 Fourier 变换.(没看懂)
  • P180 SURE准则的小波和光滑样条相比:小波在每个分辨率上对时域进行局部化(光滑样条好像也有局部性,但不是在每个分辨率尺度上);样条采用L2,SURE采用L1;样条用不同的 d k d_k dk(P156)来建立光滑基,而早期的SURE对所有尺度同等对待
  • P181 光滑样条和小波滤波进行拟合对比,图5.19

附录 样条计算

B样条

  • P187 B样条采用了哈尔基函数。是多项式的分段函数。习题5.2有B样条的各种性质。对于 M M M阶B样条,内结点重复 r r r次,则 M − r M-r Mr阶微分不连续(例如 M M M取2, r r r取1,也即没有复制)
  • P189 用最小二乘求解样条,冗余的原因在于基函数变换后的特征矩阵有很多0(并不是每个基函数在 N N N个点中的每一个都大于0)

光滑样条计算

  • P189 简单介绍了为什么B样条计算快,因为只涉及到lower 4-banded矩阵的运算,所以容易使用Cholesky分解求解。此外,当 N N N很大时,还可以近似计算

参考文献:
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, Second Edition
[2] ESL CN

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值