ESL第十二章 SVM和灵活判别方法 核函数/平方合页损失/Huber损失/RKHS/加性光滑样条/路径算法/结构风险最小化、最优得分/灵活判别分析/典型向量/典型相关、惩罚判别分析、混合判别分析

12.1 导言

  • P417 两类方法:SVM的非线性边界;LDA扩展成灵活判别分析flexible discriminant analysis。此外还有惩罚判别分析penalized discriminant analysis,用于处理含大量相关特征的信号和图像数据分类,以及无规则类别的混合判别分析mixture discriminant analysis

12.2 支持向量分类器

  • P418 间隔margin
  • P419 SVM软区间有两种松弛方法
    在这里插入图片描述

    在这里插入图片描述
    其中 M M M是实际间隔,这里第一种非凸
  • P419 SVM中 ∑ ξ i ⩽ K \sum \xi_i\leqslant K ξiK表示最多分错 K K K个点,注意分错需要 ξ > 1 \xi>1 ξ>1

12.2.1 计算支持向量分类器

  • P420 等价形式
    在这里插入图片描述
  • P421 支持向量support vectors,这一页写了SVM基本原理
  • P421 α , ξ \alpha, \xi α,ξ的取值和对应点和间隔关系,PRML也有讲(有一个问题是点恰好在边缘上,是否是一个有测度的事件?根据P433的图好像是的。因为当从边缘进入间隔时,会增大 ξ \xi ξ,这有一个目标函数导数的突变,如果这个增大不值得,那么就会把这个点保持在边缘上)

12.2.2 混合例子

  • P421 C C C越大,margin越窄
  • P421 最优 C C C可通过交叉验证却低估,注意留一交叉验证中,如果去掉的掉不是支持向量,那么解不会变。所以那些在原始边界分对很对的点,在交叉验证中也能分对。但是边界内的点往往不少,一般不适用于选 C C C

12.3 支持向量机和核

12.3.1 用于分类的SVM

  • P424 常见核函数, d d d阶多项式、径向基、神经网络
  • P424 大 C C C易以制任何正的松弛 ξ \xi ξ,造成过拟合的弯曲边界;小 C C C会估计较小 ∥ β ∥ \|\beta\| β,导致 f f f更光滑
  • P424 在支持向量的早期研究中,有断言称,支持向量机的核性质是唯一的,并且允许对维数灾难进行巧妙地处理.这些断言都不是正确的(不懂,不知道在说啥。。)

12.3.2 SVM作为惩罚方法

  • P426 SVM的“损失loss+惩罚penalty”形式,当 λ = 1 / C \lambda=1/C λ=1/C时,与前述问题12.8同解
    在这里插入图片描述
  • P427 平方合页损失squared hinge loss L ( y , f ) = [ 1 − y f ] + 2 L(y,f)=[1-yf]_+^2 L(y,f)=[1yf]+2
  • P427 Huberized平方合页损失“huberised” square hinge loss既有SVM支持向量的好处,也有逻辑回归中光滑损失函数核估计概率值得好处
  • P427 各loss进行比较
  • P428 如果基 h ( x ) h(x) h(x)表示层次基hierarchical basis,有一定顺序,例如粗糙程度,如果更粗糙的元素 h j h_j hj有更小的范数,那么均匀收缩更有意义(不懂,不知道在说啥,这里层次基是指小波那种吗)
  • P428 除了平方误差,表12.1中所有的损失函数,都称为 “margin maximizing loss-functions”(rosset et al., 2004b),即如果数据可分,则当 λ → 0 \lambda \to 0 λ0时, β ^ λ \hat \beta_{\lambda} β^λ得极限为最优分离超平面

12.3.3 函数估计和再生核

  • P428 本节用再生核希尔伯特空间reproducing kernel Hilbert spaces中的函数估计来描述SVM
    核函数一定能特征展开eigen-expansion成如下形式
    在这里插入图片描述
    h m ( x ) = δ m ϕ m ( x ) h_m(x)=\sqrt {\delta_m} \phi_m(x) hm(x)=δm ϕm(x) θ m = δ m β m \theta_m=\sqrt{\delta_m}\beta_m θm=δm βm时,( h h h是真正扩展后的特征)。式12.25改写成
    在这里插入图片描述
    (注意到 f ( x ) = β 0 + ∑ m = 1 ∞ β h m ( x ) f(x)=\beta_0 +\sum_{m=1}^\infty \beta h_m(x) f(x)=β0+m=1βhm(x)
    RKHS理论保证了有如下形式的解
    在这里插入图片描述
    代入12.25得到
    在这里插入图片描述
    这些模型非常泛用,包含第 5 和第 9 章中的整个光滑样条族、加性和交叉样条模型
  • P429 更广泛的正则形式
    在这里插入图片描述
    H \mathcal H H函数的结构空间the structured space of functions J ( f ) J(f) J(f)是合适的正则器。书上给了加性光滑样条扩展
  • P429 这一节讨论也表明,任意(12.22)中提到的核都可以和凸损失函数一起使用,并且将会得到形如(12.28)的有限维表示。(合页损失可以换成交叉熵,所以SVM和逻辑回归之类的真的挺像的,就差一点loss))(有一个疑问是,既然这个适用范围这么广泛,那啥样的正则项和loss不能用)(另外这里很神奇的是解5.48就能得到5.50,我理解的不好。另外,5.48需要 f ∈ H K f\in \mathcal H_K fHK,为啥SVM就满足了

12.3.4 SVM和维度灾难

  • P431 如果特征维度很多,而类别仅仅在某两个维度上线性可分,那么“核”不会很容易发现这种结构,并且需要在很多维下搜寻. 如果有知识能够得到先验,那么更多统计就会变得容易。自适应方法的主要目的就是发现这种结构。这一节造了个例子说事
  • P431 从表格也能看出来书中把SVC和SVM进行了严格区分,后者带核,前者不带

12.3.5 SVM分类器的路径算法

(似乎是3.8.2节的一个扩展)

  • P432 径向基核函数中,尺度参数 γ \gamma γ和正则化系数 C C C在模拟数据上的效果。 γ \gamma γ大的时候,核的峰很窄,需要大的正则化
  • P433 惩罚系数逐渐变大,拉格朗日约束系数 α \alpha α(已经缩放到 [ 0 , 1 ] [0,1] [0,1])如何变,从而观察样本点如何逐渐落入区间(这里 α \alpha α也有变小的)
  • P434 路径算法
  • P434 根据公式12.33,当 γ \gamma γ不断缩小时,只有 α ∈ [ 0 , 1 ] \alpha\in [0,1] α[0,1]的位于边界上的点,会影响模型系数 β \beta β方向变化。这些点满足 y i f ( x i ) = 1 y_if(x_i)=1 yif(xi)=1,所以这小部分线性等式决定了 α i ( λ ) \alpha_i(\lambda) αi(λ)如何影响 β λ \beta_\lambda βλ α i ( λ ) \alpha_i(\lambda) αi(λ)是分段线性的(原因是什么?好像可以把 y i f ( x i ) = 1 y_if(x_i)=1 yif(xi)=1中的 f f f换成12.33,然后得到一个线性方程组. 注意这里的 α \alpha α已经不是原先的拉格朗日乘子,而是缩放到 [ 0 , 1 ] [0,1] [0,1]之后的。如果是原先的,好像并不是线性的)。当有点穿出边界时,这种线性被打破(或者刚到边界时?)

12.3.6 SVM用于回归

  • P435 引入” ϵ \epsilon ϵ-不敏感“误差函数,和PRML一样. 还对比了Huber Loss的区别
  • P436 参数 ϵ \epsilon ϵ和正则系数 λ \lambda λ的功能不太一样, ϵ \epsilon ϵ依赖于 y y y的尺度

12.3.7 回归和核

  • P437 L2线性回归的核写法。如果用L1范数则写不出这个形式来

12.3.8 讨论

  • P438 对于多分类,求多个二分类。对每个成对类别建立分类器,最终的分类器是起主要作用的分类器。另外,可以采用合适核的多项损失函数
  • P438 SVM和结构风险的关系:如果训练点在半径为 R R R的球中,并且 G ( x ) = s i g n [ f ( x ) ] = s i g n [ β T x + β 0 ] G(x)=sign[f(x)]=sign[\beta^T x+\beta_0] G(x)=sign[f(x)]=sign[βTx+β0],可证对于函数类 { G ( x ) , ∥ β ∥ ⩽ A } \{G(x),\|\beta\|\leqslant A\} {G(x),βA},VC维满足
    在这里插入图片描述
    如果 f ( x ) f(x) f(x)分离训练数据,对于 ∥ β ∥ ⩽ A \|\beta\|\leqslant A βA是最优的,则在训练集上,至少 1 − η 1-\eta 1η的概率满足
    在这里插入图片描述
  • P438 正则参数 C C C控制了 A A A,进而控制VC维的上界。也即P239的SRM结构风险最小化过程,可以通过式12.51最小化测试误差上界来选择 C C C,不清楚这么做和交叉验证相比有什么优势

12.4 线性判别分析的推广

  • P438 LDA将观测划分到最近的那个类,采用Mahalanobis度量(注意,采用了马氏距离,仍然可能是一条直线分界面,只不过不是两个类中心的垂直平分线)
  • P439 如果每个类的观测服从多元高斯,有共同协方差,则LDA是贝叶斯分类器估计(这里贝叶斯的意思应该是最优的)
  • P439 LDA提供了数据的低维视角,图12.12是个例子
  • P439 LDA的问题是判别界面不够复杂;每个类的分布形式不够复杂;另一方面,(互相关的)预测变量可能太多,估计时方差太大
  • P439 三种改进 FDA,(1)把LDA扩展到线性回归形式,而且可以基扩展。(2)加正则,对于预测变量很多的情况,例如图像的像素点,对参数惩罚使其光滑或在空间中coherent(不知道咋翻译了),称之为PDA。(3)把每个类建模成混合高斯分布,称为MDA

12.5 灵活判别分析Flexible Discriminant Analysis

  • P440 对于多分类 G = { 1 , … , K } \mathcal G=\{1, \dots, K\} G={1,,K},假定 θ : G ↦ R 1 \theta: \mathcal G \mapsto \mathbb R^1 θ:GR1,给每个类分配得分score. 目标为优化:
    在这里插入图片描述
    θ \theta θ要满足一定约束,防止平凡解。进一步,可以设计 L ⩽ K − 1 L\leqslant K-1 LK1个不同的独立分数使平均均方误差最小( Θ \bm \Theta Θ应该就是最优得分)
    在这里插入图片描述
    得分集假设为相互正交的并且关于合适的内积进行了标准化来避免平方的零解.
    该目标的解 β \beta β和4.3.3节低秩LDA中的判别向量(典型canonical向量 ν l \nu_l νl,在忽略常数倍下一致
    测试点 x x x到第 k k k类中心 μ ^ k \hat \mu _k μ^k的Mahalanobis距离为
    在这里插入图片描述
    其中 η ˉ l k \bar\eta_{\mathcal l}^k ηˉlk是第 k k k η ^ l ( x i ) = X T β ^ l \hat \eta_l(x_i)=X^T\hat \beta_l η^l(xi)=XTβ^l的拟合均值(我的理解是第 l l l个主成分的坐标的平均值), D ( x ) D(x) D(x)不依靠 k k k. w l w_l wl是对应权重,用第 l l l个最优得分的均方误差 r l 2 r_l^2 rl2定义
    在这里插入图片描述
    (上述这个形式应该类比于高斯分布等方差的情况)
    该方法的真正优势是可以把 η l ( X ) = X T β l \eta_l(X)=X^T \beta_l ηl(X)=XTβl用非参等形式换掉,达到比LDA更灵活的分类器。可以考虑广义加性模型、样条函数、MARS等(感觉这些都对应各种核)。此时目标函数为
    在这里插入图片描述
    J J J是关于某种形式的非参回归的合适正则器
  • P442 2阶多项式的例子,确实有点意思啊,看图12.9
  • P442 FDA是在增广空间中进行带惩罚的线性判别分析
  • P443 S-PLUS里bruto即FDA
  • P443 从12.10图上看,FDA的有监督降维效果很好啊

12.5.1 计算FDA估计

  • P444 当非参回归过程可以表示成线性算子,用 S λ \bm S_\lambda Sλ表示,即 y ^ = S λ y \hat \bm y=\bm S_\lambda \bm y y^=Sλy. 如果固定光滑参数,加性样条满足此性质;如果MARS中基函数选定了,那么也满足此性质。此时最优的得分等价于一个典型相关问题canonical correlation problem,细节见习题12.6(题解大致能看懂,典型相关问题不理解。445页的算法细节存在不少疑问
  • P444 指示变量响应矩阵indicator response matrix(就是one-hot矩阵)
  • P445 反正总的来说,第 (1) 步是简单的调用回归程序.第 (2) 步中的特征值分解同时计算了所有的最优得分函数.
  • P445 多分类回归会出现4.2节讨论得各种问题,例如三类masking,FDA在第(1)步也是这么回归,但是第(2)步转换产生有用的判别函数,所以没有这些缺点(不理解,缺乏例子)

12.6 惩罚判别分析Penalized Discriminant Analysis

  • P446 考虑基 h ( x ) h(x) h(x)的线性回归和系数的二次惩罚
    在这里插入图片描述
    如果是可加光滑样条, h h h包含 N p Np Np个基, Ω \bm \Omega Ω N p × N p Np\times Np Np×Np的分块对角矩阵
    此时,FDA的步骤可以看作是LDA的推广,称之为惩罚判别分析Penalized Discriminant Analysis或PDA
    惩罚的马氏距离为
    在这里插入图片描述
    Σ W \bm \Sigma_W ΣW是类内协方差矩阵,
    采用惩罚度量分解分类子空间
    在这里插入图片描述
    这里 Σ B e t \bm \Sigma_{Bet} ΣBet应该是类间散度矩阵
    (这里的原理不知,我估计是从式12.57可以推出式12.58)
  • P447 线性回归中,正相关的特征导致噪声的、负相关的系数估计,并且这个噪声导致多余的采样方差.
  • P447 对于语音的频率图或者图像,防止多重共线性的策略是在图像空间中对系数正则化使之光滑,这即PDA做的事. 计算方法类似FDA,除了需要使用合适的带惩罚的回归方法
  • P447 看图,感觉有点PPCA那味了(但还是理解不能。我估计这里的正则化 Ω \bm \Omega Ω不是乱选的,应该是让空间更光滑,相邻位置更相关)(这图有提特征的感觉)(就降维而言,LDA是分的最开的,PDA则是分的时候考虑到空间关系,让降维的维度更有解释意义。为啥要涉及到FDA呢,我估计是在想要如何求解,这就要用类似FDA的方式)

12.7 混合判别分析Mixture Discriminant Analysis

  • P449 多类混合高斯
  • P450 用K-means初始化混合高斯
  • P450 回顾4.3.3节,低秩LDA等价于最大化高斯分类器,其中所有均值向量形成的矩阵被限制在低秩。把这用于MDA中,看作是 ∑ k R k \sum_k R_k kRk个类别,降到 L L L维。仍然用EM,E步不变,M步要算一次FDA(这里缺乏细节,我猜是解出得分函数 θ \theta θ θ \theta θ可能就是类中心。然后用 η ( x ) \eta(x) η(x)得到每个样本的低维坐标。以此可以算每个子类的先验 π \pi π,均值和方差不知道怎么算。然后弄出后验 W ( c k r ∣ x i , g i ) W(c_{kr}|x_i,g_i) W(ckrxi,gi)
  • P451 LDA、FDA、PDA不能降到类别更多的维度,MDA通过造子类,代替类别,得以实现
  • P451 可以把FDA、PDA的形式引入M步中,得到光滑约束
  • P457 MDA把每个类建模成混合高斯,一种更泛用的模型是让每个混合中心在各个类共享

12.7.1 例子:波形数据

  • P451 习题12.11 一个低维流行的例子,这里造了这批数据,其信息完全在 h 1 , h 2 , h 3 h_1, h_2, h_3 h1,h2,h3在21维空间连成的三角形中。(例子蛮有趣的,说明了MDA的有监督降维作用

参考文献:
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, Second Edition
[2] ESL CN

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值