核方法、、_核化对其进行非线性拓展的例子-CSDN博客

本文链接：https://blog.csdn.net/weixin_36670529/article/details/102924806

令H为核函数 $\kappa$ 对应的再生核希尔伯特空间， ||h||_H 表示H空间中的h函数，对于任意单调递增函数 $\Omega:[0,\infty]x \mapsto R$ 和任意非负损失函数 $l:R^mx \mapsto [0.\infty]$ ，优化问题

$\mathop{\arg\min}_{h\in H} = \Omega(||h||_H)+l(h(x_1),h(x_2),...,h(x_m))$

的解总可写为

$h^*(x)=\sum^m_{i=1}\alpha \kappa (x,x_i).$

表示定理对损失函数没有限制，对正则化项 $\Omega$ 仅要求单调递增，甚至不要求 $\Omega$ 是凸函数，意味着对于一般的损失函数和正则化项，优化问题的最优解 h^*(x) 都可表示为核函数 $\kappa (x,x_1)$ 的线性组合；这显示出核函数的巨大威力。人们发展出一系列基于核函数的学习方法，统称为“核方法”(kernel method)。最常见的，是通过“核化”(即引入核函数)来将线性学习器拓展为非线性学习器。下面我们以线性判别分析为例来演示如何通过核化来对其进行非线性拓展，从而得到“核线性判别分析”(Kernelized Linear Discriminant Analysis，简称KLDA)。

我们假设可通过某种映射 $\phi :\chi x \mapsto F$ 将样本映射到一个特征空间F，然后在F中执行线性判别分析，以求得

$h(x)=w^T \phi (x)$

KLDA的学习目标是：

$max_w J(w)=\frac{w^T S^\phi_b w}{w^T S^\phi_w w}$

其中 $S^\phi_b$ 和 $S^\phi_w$ 分别为训练样本在特征空间F中的类间散度矩阵的类内散度矩阵。令 X_i 表示第 $i\in \{0,1 \}$ 类样本的集合，其样本数为 m_i ；总样本数 m=m_0+m_1 .第i类样本在特征空间F中的均值为

$\mu_i^\phi =\frac{1}{m_i}\sum_{x\in X_i}\phi (x)$

两个散度矩阵分别为

$S^\phi_b=(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T$

$S^\phi_w=\sum_{i=1}^1\sum_{x\in X_i} (\phi(x)-\mu_i^\phi)(\phi(x)-\mu_0^\phi)^T$

通常我们难以知道映射 $\phi$ 的具体形式，因此使用核函数 $\kappa (x,x_i)=\phi(x_i)^T\phi(x)$ 来隐式地表达这个映射和特征空间F。把 J(w) 作为(6.57)中的损失函数l，再令 $\Omega\equiv 0$ ，由表示定理，函数h(x)可写为

$h(x)=\sum^m_{i=1}\alpha_i \kappa(x,x_i),$

于是由式(6.59)可得

$w=\sum^m_{i=1}\alpha_i \phi(x_i)$

令 $K\in R^{m\times m}$ 为核函数 $\kappa$ 所对应的核矩阵， $(K)_{ij}=\kappa(x_i,x_j)$ ，令 $1_i \in \{1,0\}^{m\times 1}$ 为第i类样本的指示向量，即 1_i 为第j和分量为1当且仅当 $x_j\in X_i$ 否则 1_i 的第j个分量为0.再令