（《机器学习》完整版系列）第6章支持向量机SVM——6.5 核对率回归和核线性判别分析-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129208618

核函数特征映射推广到更一般的情形，除了SVM和SVR中使用核方法进行扩充外，这里再讨论核对率回归和核线性判别分析。
用核方法扩展LDA算法形成核线性判别分析KLDA算法

核方法

总结前述的核函数特征映射，将其推广到更一般的情形，即表示定理【西瓜书定理6.2】，表示定理的关键在于【西瓜书式(6.57)】是关于 $h$ 的函数，而 $h$ 本身又是关于 $\boldsymbol{x}$ 的函数，其特例： $\Omega =0$ ， $\ell$ 为 $h(\boldsymbol{x}_i)$ 的函数。

基于核函数的学习方法统称为“核方法”。

核对率回归

核对率回归：设 $h(\boldsymbol{x}_i)=\boldsymbol{\beta }^\mathrm{T}\hat{\boldsymbol{x}}_i$ ，则【西瓜书式(3.27)】，目标变为
$\begin{align} \min \ell (h)=\sum_{i=1}^m[-y_ih(\boldsymbol{x}_i)+\ln (1+\mathrm{e}^{h(\boldsymbol{x}_i)})] \tag{6.24} \end{align}$

再取 $\Omega =0$ ，则表示定理的优化函数【西瓜书式(6.57)】变为
$\begin{align} F(h) =\ell (h) \tag{6.25} \end{align}$
由表示定理，其解可表示为【西瓜书式(6.58)】
$\begin{align} h^*(\boldsymbol{x}) & =\sum_{i=1}^m{\alpha}_i^*\kappa (\boldsymbol{x},\boldsymbol{x}_i)\notag \\ & ={\boldsymbol{\alpha}^*}^\mathrm{T}\kappa (\boldsymbol{x},\boldsymbol{x}_{1:\,m}) \tag{6.26} \end{align}$
其中， $\boldsymbol{\alpha}^*=({\alpha}_1^*;{\alpha}_2^*;\cdots;{\alpha}_m^*),\quad \kappa (\boldsymbol{x},\boldsymbol{x}_{1:\,m})=(\kappa (\boldsymbol{x},\boldsymbol{x}_{1});\kappa (\boldsymbol{x},\boldsymbol{x}_{2});\cdots;\kappa (\boldsymbol{x},\boldsymbol{x}_{m}))$

由式(6.25)得
$\begin{align} \mathop{\min}\limits_{h \in \mathbb{H} }\ell (h) & =\ell (h^*)\notag \\ & =\sum_{i=1}^m[-y_ih^*(\boldsymbol{x}_i)+\ln (1+\mathrm{e}^{h^*(\boldsymbol{x}_i)})]\notag \\ & =\sum_{i=1}^m[-y_i{\boldsymbol{\alpha}^*}^\mathrm{T}\kappa (\boldsymbol{x}_i,\boldsymbol{x}_{1:\,m})+\ln (1+\mathrm{e}^{{\boldsymbol{\alpha}^*}^\mathrm{T}\kappa (\boldsymbol{x}_i,\boldsymbol{x}_{1:\,m})})]\notag \\ & \geqslant \mathop{\min}\limits_{\boldsymbol{\alpha}}\sum_{i=1}^m[-y_i\boldsymbol{\alpha}^\mathrm{T}\kappa (\boldsymbol{x}_i,\boldsymbol{x}_{1:\,m})+\ln (1+\mathrm{e}^{\boldsymbol{\alpha}^\mathrm{T}\kappa (\boldsymbol{x}_i,\boldsymbol{x}_{1:\,m})})] \tag{6.27} \end{align}$

比较式(6.27)与【西瓜书式(3.27)】， $\boldsymbol{\alpha}$ 对应于 $\boldsymbol{\beta}$ 、 $\kappa (\boldsymbol{x}_i,\boldsymbol{x}_{1:\,m})$ 对应于 $\hat{x}_i$ ，直接套用【西瓜书式(3.27)】的解，即得到式(6.27)的解，取 ${\boldsymbol{\alpha}^*}$ 为该解即可。

核线性判别分析

线性判别分析（【西瓜书第3.4节LDA】）用核方法扩展形成KLDA算法，其关键点体现在映射关系表6.6中
在这里插入图片描述

从表6.6中我们可以看到特征空间中的公式均含有 $\phi (\boldsymbol{x})$ ，然而，我们并不知道它，而是知道核函数 $\kappa (\boldsymbol{x},\boldsymbol{x}_i)$ ，由其隐式地表示
$\kappa (\boldsymbol{x},\boldsymbol{x}_i)={\phi (\boldsymbol{x}_i)}^\mathrm{T}\phi (\boldsymbol{x})$

【西瓜书式(6.60)】为 $\max$ ，其倒数为 $\min$ 可作为损失函数，在表示定理【西瓜书定理6.2】中取特殊情况：
$\begin{align} \Omega & \equiv 0 \notag \\ \ell & =J^{-1}(\boldsymbol{w})\notag \end{align}$
则【西瓜书式(6.57)】变为
$\begin{align} \min F(h)=\min (0+J^{-1}(\boldsymbol{w}))=\max{J(\boldsymbol{w})} \tag{6.28} \end{align}$
即【西瓜书式(6.57)】变为【西瓜书式(6.60)】，这即为优化目标。

假定通过表6.6中对应方法求出了最优模型 $h(\boldsymbol{x})=\boldsymbol{w}^\mathrm{T}\phi (\boldsymbol{x})$ ，而表示定理说这个最优解具有【西瓜书式(6.58)】的形式，即
$\begin{align} h(\boldsymbol{x}) & =\boldsymbol{w}^\mathrm{T}\phi (\boldsymbol{x})\notag \\ & =\sum_{i=1}^m{\alpha}_i \kappa (\boldsymbol{x},\boldsymbol{x}_i)\text{（由【西瓜书式(6.58)】）}\notag \\ & =\sum_{i=1}^m{\alpha}_i(\phi (\boldsymbol{x}_i))^\mathrm{T}\phi (\boldsymbol{x})\notag \\ & =\left[\sum_{i=1}^m{\alpha}_i\phi (\boldsymbol{x}_i)\right]^\mathrm{T}\phi (\boldsymbol{x}) \end{align}$

由此有
$\begin{align} \boldsymbol{w}=\sum_{i=1}^m{\alpha}_i\phi (\boldsymbol{x}_i) \tag{6.29} \end{align}$

假定训练集由 $n$ 个类（集）组成： $D=\mathbf{X}_1\bigcup \mathbf{X}_2\bigcup\cdots\bigcup\mathbf{X}_n$ ，其中， $\mathbf{X}_i$ 为第 $i$ 类的样本组成的集，但以矩阵的形式体现。

将指示函数式用到这里，有
$\begin{align} \mathbb{I} (\boldsymbol{x}_j \in \mathbf{X}_i)= \begin{cases} \ 1 ,\qquad \text{当$\boldsymbol{x}_j \in \mathbf{X}_i$}\notag \\ \ 0 ,\qquad \text{当$\boldsymbol{x}_j \notin \mathbf{X}_i$}\notag \end{cases} \end{align}$

为方便计，我们改写一下形式：
$\begin{align} \mathbb{I}_i (\boldsymbol{x}_j )= \begin{cases} \ 1 ,\qquad \text{当$\boldsymbol{x}_j \in \mathbf{X}_i$}\notag \\ \ 0 ,\qquad \text{当$\boldsymbol{x}_j \notin \mathbf{X}_i$}\notag \end{cases} \end{align}$

将 $\mathbb{I}_i$ 作用于 $D$ 的所有样本，则得到一个向量，记为
$\begin{align} \mathbb{I}_i (\boldsymbol{x}_{1:\, m} )\mathop{=} \limits^{\mathrm{def}} (\mathbb{I}_i (\boldsymbol{x}_1 );\mathbb{I}_i (\boldsymbol{x}_2 );\cdots;\mathbb{I}_i (\boldsymbol{x}_m )) \tag{6.30} \end{align}$

因 $\phi (\boldsymbol{x}_i)$ 为（列）向量，将 $\phi$ 作用于 $D$ 的所有样本，则得到一个矩阵，记为
$\begin{align} (\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T} \mathop{=} \limits^{\mathrm{def}} (\phi (\boldsymbol{x}_1 ),\phi (\boldsymbol{x}_2 ),\cdots,\phi (\boldsymbol{x}_m )) \tag{6.31} \end{align}$
则
$\begin{align} (\phi (\boldsymbol{x}_{1:\,m} ))= ((\phi (\boldsymbol{x}_1 ))^\mathrm{T};(\phi (\boldsymbol{x}_2 ))^\mathrm{T};\cdots;(\phi (\boldsymbol{x}_m ))^\mathrm{T})\quad \text{（由下面式(0.2）} \tag{6.32} \end{align}$
用到公式：
$\begin{align} %\mathbf{X} & =(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_n)\tag{eq:300-t02be} \\ \mathbf{X}^\mathrm{T} & =(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_n)^\mathrm{T}\notag \\ & =(\boldsymbol{x}_1^\mathrm{T};\boldsymbol{x}_2^\mathrm{T};\cdots;\boldsymbol{x}_n^\mathrm{T}) \tag{0.2} \end{align}$
由式(6.31)、式(6.32)有
$\begin{align} \phi (\boldsymbol{x}_{1:\,m} )(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T} & = \left(\phi (\boldsymbol{x}_1 )^\mathrm{T};\phi (\boldsymbol{x}_2 )^\mathrm{T};\cdots,\phi (\boldsymbol{x}_m )^\mathrm{T}\right) \left(\phi (\boldsymbol{x}_1 ),\phi (\boldsymbol{x}_2 ),\cdots,\phi (\boldsymbol{x}_m )\right)\notag \\ & =([\phi (\boldsymbol{x}_i )^\mathrm{T}\phi (\boldsymbol{x}_j )]_{ij})\notag \\ & =([\kappa (x_i,x_j)]_{ij})\quad \text{（由【西瓜书式(6.22)】）}\notag \\ & =\mathbf{K} \tag{6.33} \end{align}$

由式(6.30)、式(6.31)，改写【西瓜书式(6.61)】：
$\begin{align} {\mu}_i^{\phi } & =\frac{1}{m}\left[\sum_{\boldsymbol{x}_j \in \mathbf{X}_i}{\phi }(\boldsymbol{x}_j)+\sum_{\boldsymbol{x}_j \notin \mathbf{X}_i}0\right]\notag \\ & =\frac{1}{m_i}\left[\sum_{\boldsymbol{x}_j \in D}\mathbb{I} (\boldsymbol{x}_j \in \mathbf{X}_i){\phi }(\boldsymbol{x}_j)\right]\notag \\ & =\frac{1}{m_i}(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T}\mathbb{I}_i (\boldsymbol{x}_{1:\,m} ) \tag{6.34} \end{align}$

同样有
$\begin{align} {\mu}_j^{\phi } =\frac{1}{m_j}(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T}\mathbb{I}_j (\boldsymbol{x}_{1:\,m} ) \tag{6.35} \end{align}$

由式(6.34)、式(6.35)，有
$\begin{align} {\mu}_i^{\phi } -{\mu}_j^{\phi } =(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T}\left[\frac{1}{m_i}\mathbb{I}_i (\boldsymbol{x}_{1:\,m} )-\frac{1}{m_j}\mathbb{I}_j (\boldsymbol{x}_{1:\,m} )\right] \tag{6.36} \end{align}$

由式(6.36)改写【西瓜书式(6.62)】：
$\begin{align} \mathbf{S}_{\mathrm{b}}^{\phi } & =(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T}\left[\frac{1}{m_1}\mathbb{I}_1 (\boldsymbol{x}_{1:\,m} )-\frac{1}{m_0}\mathbb{I}_0 (\boldsymbol{x}_{1:\,m} )\right]\left((\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T}\left[\frac{1}{m_1}\mathbb{I}_1 -\frac{1}{m_0}\mathbb{I}_0 \right]\right)^\mathrm{T}\notag \\ & =(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T} \left[\frac{\mathbb{I}_1 (\boldsymbol{x}_{1:\,m} )}{m_1}-\frac{\mathbb{I}_0 (\boldsymbol{x}_{1:\,m})}{m_0} \right] \left[\frac{\mathbb{I}_1 (\boldsymbol{x}_{1:\,m} )}{m_1}-\frac{\mathbb{I}_0 (\boldsymbol{x}_{1:\,m})}{m_0}\right]^\mathrm{T}\phi (\boldsymbol{x}_{1:\,m} )\notag \\ & ={\phi}^\mathrm{T}[\cdot][\cdot]^\mathrm{T}{\phi}\qquad \text{（简记）} \tag{6.37} \end{align}$

由式(6.31)改写式(6.29)：
$\begin{align} \boldsymbol{w}=\phi (\boldsymbol{x}_{1:\,m} )^\mathrm{T}\boldsymbol{\alpha},\quad (\boldsymbol{\alpha}=({\alpha}_1;{\alpha}_2;\cdots;{\alpha}_m)) \tag{6.38} \end{align}$

由式(6.37)、式(6.38)有（必要时采用简记）
$\begin{align} \boldsymbol{w}^\mathrm{T}\mathbf{S}_{\mathrm{b}}^{\phi }\boldsymbol{w} & =\left(\phi (\boldsymbol{x}_{1:\,m} )^\mathrm{T}\boldsymbol{\alpha}\right)^\mathrm{T}\mathbf{S}_{\mathrm{b}}^{\phi }(\phi (\boldsymbol{x}_{1:\,m} ))^\mathrm{T}\boldsymbol{\alpha}\quad \text{（由式(6.38)）}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}\phi[{\phi}^\mathrm{T}[\cdot][\cdot]^\mathrm{T}{\phi}]{\phi}^\mathrm{T}\boldsymbol{\alpha}\quad \text{（由式(6.37)）}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}(\phi{\phi}^\mathrm{T})[\cdot][\cdot]^\mathrm{T}({\phi}{\phi}^\mathrm{T})\boldsymbol{\alpha}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}\mathbf{K}[\cdot][\cdot]^\mathrm{T}\mathbf{K}\boldsymbol{\alpha}\quad \text{（由式(6.33)）}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}(\mathbf{K}[\cdot])([\cdot]^\mathrm{T}\mathbf{K}^\mathrm{T})\boldsymbol{\alpha}\quad \text{（由$\mathbf{K}$的对称性）}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}(\mathbf{K}[\cdot])(\mathbf{K}[\cdot])^\mathrm{T}\boldsymbol{\alpha}\quad \tag{6.39} \end{align}$
其中
$\begin{align} \mathbf{K}[\cdot] & =\mathbf{K}\left[\frac{\mathbb{I}_1 (\boldsymbol{x}_{1:\,m} )}{m_1}-\frac{\mathbb{I}_0 (\boldsymbol{x}_{1:\,m})}{m_0}\right]\notag \\ & =\frac{1}{m_1}\mathbf{K}\mathbb{I}_1 (\boldsymbol{x}_{1:\,m})-\frac{1}{m_0}\mathbf{K}\mathbb{I}_0 (\boldsymbol{x}_{1:\,m} ) \end{align}$

引入【西瓜书式(6.66) $\,\thicksim$ (6.69)】定义及记号 $\boldsymbol{1}_i\mathop{=} \limits^{\mathrm{def}} \mathbb{I}_i (\boldsymbol{x}_{1:\,m})$ ，则式(6.39)变为
$\begin{align} \boldsymbol{w}^\mathrm{T}\mathbf{S}_{\mathrm{b}}^{\phi }\boldsymbol{w} & =\boldsymbol{\alpha}^\mathrm{T} \left[\frac{1}{m_1}\mathbf{K}\boldsymbol{1}_1-\frac{1}{m_0}\mathbf{K}\boldsymbol{1}_0\right] \left[\frac{1}{m_1}\mathbf{K}\boldsymbol{1}_1-\frac{1}{m_0}\mathbf{K}\boldsymbol{1}_0\right]^\mathrm{T} \boldsymbol{\alpha}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}(\hat{\boldsymbol{\mu} }_1-\hat{\boldsymbol{\mu} }_0)(\hat{\boldsymbol{\mu} }_1-\hat{\boldsymbol{\mu} }_0)^\mathrm{T}\boldsymbol{\alpha}\notag \\ & =\boldsymbol{\alpha}^\mathrm{T}\mathbf{M}\boldsymbol{\alpha} \tag{6.40} \end{align}$

与上述推导式(6.40)过程类似，有
$\begin{align} \boldsymbol{w}^\mathrm{T}\mathbf{S}_{\mathrm{w}}^{\phi }\boldsymbol{w} & =\boldsymbol{\alpha}^\mathrm{T}\mathbf{N}\boldsymbol{\alpha} \tag{6.41} \end{align}$

由式(6.40)、式(6.41)，优化目标由【西瓜书式(6.60)】变为【西瓜书式(6.70)】，这样，就可以使用第3章的线性判别分析（LDA）求解（参照【西瓜书式(3.35)】的求解过程）。

问题来了：【西瓜书式(6.60)】与【西瓜书式(6.70)】这两个式子形式上差不多，为什么不直接求前者？

因为，前者是求 $\boldsymbol{w}$ ，由式(6.29)知，它与 $\phi (\boldsymbol{x}_i)$ 函数关连，而该函数通常是不知道的。转化成后者之后， $\phi (\boldsymbol{x}_i)$ 函数相关的内容成了核矩阵（式(6.33)），核矩阵 $\mathbf{K}$ 体现在 $\mathbf{M}$ 和 $\mathbf{N}$ 中，而核矩阵 $\mathbf{K}$ 通常是已知的，也就是【西瓜书式(6.70)】避开了未知的 $\phi (\boldsymbol{x}_i)$ 函数，这就是目标表达式转换的原因。