机器学习笔记之核方法(二)正定核函数的充要性证明

静静的喝酒

已于 2023-01-05 11:49:40 修改

阅读量1.8k

点赞数 4

分类专栏：机器学习文章标签：正定核函数正定核函数充要性证明核方法

于 2022-11-24 13:59:22 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128000933

版权

机器学习专栏收录该内容

195 篇文章 231 订阅

订阅专栏

机器学习笔记之核方法——正定核函数的充要性证明

引言

引言

上一节介绍了核方法思想与核函数，本节将介绍正定核函数的充要性证明。

回顾：核函数与正定核函数

首先，核(Kernal)表示两个样本空间的映射，将 $p$ 维特征空间映射至一维实数域的映射：
$\kappa(x^{(i)},x^{(j)}) \to \mathbb R \quad \forall x^{(i)},x^{(j)} \in \mathcal X;x^{(i)},x^{(j)} \in \mathbb R^p$

正定核函数在核函数的基础上，表示将特征空间 $x^{(i)},x^{(j)}$ 经过非线性转换得到的高维特征空间 $\phi(x^{(i)}),\phi(x^{(j)})$ 之间的内积：
$\begin{aligned} \kappa(x^{(i)},x^{(j)}) & = \left\langle\phi(x^{(i)}),\phi(x^{(j)})\right\rangle \\ & = \left[\phi(x^{(i)})\right]^T \phi(x^{(j)}) \quad x^{(i)},x^{(j)} \in \mathcal X \end{aligned}$

正定核函数的性质

对称性：正定核函数作为两特征空间作为输入的函数，特征空间的输入顺序不影响函数结果：
$\kappa(x^{(i)},x^{(j)}) = \kappa(x^{(j)},x^{(i)})$
正定性：如果 $\kappa(\cdot,\cdot)$ 是正定核函数，那么从样本集合 $\mathcal X$ 中任取 $N$ 个样本 $x^{(1)},x^{(2)},\cdots,x^{(N)} \in \mathcal X$ ，对应的核矩阵 $\mathcal K$ 总是半正定的。核矩阵 $\mathcal K$ 表示如下：
$\mathcal K = \begin{bmatrix} \kappa(x^{(1)},x^{(1)}),\kappa(x^{(1)},x^{(2)}),\cdots,\kappa(x^{(1)},x^{(N)}) \\ \kappa(x^{(2)},x^{(1)}),\kappa(x^{(2)},x^{(2)}),\cdots,\kappa(x^{(2)},x^{(N)}) \\ \vdots \\ \kappa(x^{(N)},x^{(1)}),\kappa(x^{(N)},x^{(2)}),\cdots,\kappa(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N \times N}$

而这两个性质同样是判定是否为正定核函数的充要条件。

正定核函数的充要性证明

证明要求为：已知 $\kappa(x^{(i)},x^{(j)})$ 是正定核函数，证：该函数对应的核矩阵 $\mathcal K$ 是半正定的，且 $\kappa(x^{(i)},x^{(j)})$ 具有对称性。

对称性证明

基于正定核函数的定义：
$\kappa(x^{(i)},x^{(j)}) = \left\langle\phi(x^{(i)}),\phi(x^{(j)})\right\rangle =\left[\phi(x^{(i)})\right]^T\phi(x^{(j)})$
因而有：
调转变量顺序~
$\kappa(x^{(j)},x^{(i)}) = \left\langle\phi(x^{(j)}),\phi(x^{(i)})\right\rangle = \left[\phi(x^{(j)})\right]^T\phi(x^{(i)})$
又由于内积运算本身存在交换律，因而有：
$\begin{aligned} \left[\phi(x^{(j)})\right]^T\phi(x^{(i)}) & = \left[\phi(x^{(i)})\right]^T\phi(x^{(j)}) \\ \kappa(x^{(i)},x^{(j)}) & = \kappa(x^{(j)},x^{(i)}) \end{aligned}$
因此，正定核函数 $\kappa(\cdot,\cdot)$ 满足对称性。

正定性的必要性证明

已知一个方阵 $\mathcal A_{N \times N}$ 是半正定矩阵的充要条件：对于任意 $N$ 维向量 $\alpha$ ，都有 $\alpha^T\mathcal A \alpha \geq 0$ 恒成立。

定义向量 $\alpha$ 表示如下：
$\alpha = (\alpha^{(1)},\alpha^{(2)},\cdots,\alpha^{(N)})^T$
观察 $\alpha^T\mathcal K\alpha$ 的结果：
$\begin{aligned} \alpha^T\mathcal K\alpha = (\alpha^{(1)},\alpha^{(2)},\cdots,\alpha^{(N)})_{1 \times N} \begin{bmatrix} \kappa(x^{(1)},x^{(1)}),\kappa(x^{(1)},x^{(2)}),\cdots,\kappa(x^{(1)},x^{(N)}) \\ \kappa(x^{(2)},x^{(1)}),\kappa(x^{(2)},x^{(2)}),\cdots,\kappa(x^{(2)},x^{(N)}) \\ \vdots \\ \kappa(x^{(N)},x^{(1)}),\kappa(x^{(N)},x^{(2)}),\cdots,\kappa(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N\times N} \begin{pmatrix}\alpha^{(1)} \\ \alpha^{(2)} \\ \vdots \\ \alpha^{(N)}\end{pmatrix}_{N \times 1} \end{aligned}$
观察上述矩阵/向量格式， $\alpha^T\mathcal K\alpha$ 的最终结果是一个实数。将 $\alpha^T\mathcal K\alpha$ 继续展开：
$\begin{aligned} \alpha^T\mathcal K\alpha & = \left[\alpha^{(1)}\cdot \kappa(x^{(1)},x^{(1)}) + \cdots +\alpha^{(N)} \cdot \kappa(x^{(N)},x^{(1)}),\cdots,\alpha^{(1)}\cdot \kappa(x^{(1)},x^{(N)}) + \cdots +\alpha^{(N)} \cdot \kappa(x^{(N)},x^{(N)})\right] \begin{pmatrix}\alpha^{(1)} \\ \alpha^{(2)} \\ \vdots \\ \alpha^{(N)}\end{pmatrix} \\ & = \left[\sum_{i=1}^N \alpha^{(i)} \cdot \kappa(x^{(i)},x^{(1)}),\cdots,\sum_{i=1}^N\alpha^{(i)} \kappa(x^{(i)},x^{(N)})\right]\begin{pmatrix}\alpha^{(1)} \\ \alpha^{(2)} \\ \vdots \\ \alpha^{(N)}\end{pmatrix} \\ & = \alpha^{(1)} \cdot \sum_{i=1}^N \alpha^{(i)} \cdot \kappa(x^{(i)},x^{(1)}) + \cdots + \alpha^{(N)} \cdot \sum_{i=1}^N\alpha^{(i)} \kappa(x^{(i)},x^{(N)}) \\ & = \sum_{i=1}^N\sum_{j=1}^N \alpha^{(i)}\alpha^{(j)} \kappa(x^{(i)},x^{(j)}) \end{aligned}$
已知正定核函数 $\kappa(x^{(i)},x^{(j)}) = \left[\phi(x^{(i)})\right]^T\phi(x^{(j)})$ ，因而有：
$\alpha^{(i)},\left[\phi(x^{(i)})\right]^T$ 均不含 $j$ ,因而从 $j$ 的视角观察，这两项均视作常数，将它们提到前面。
$\begin{aligned} \alpha^T\mathcal K\alpha & = \sum_{i=1}^N\sum_{j=1}^N \alpha^{(i)}\alpha^{(j)} \left[\phi(x^{(i)})\right]^T\phi(x^{(j)}) \\ & = \sum_{i=1}^N \alpha^{(i)}\left[\phi(x^{(i)})\right]^T \sum_{j=1}^N \alpha^{(j)} \phi(x^{(j)}) \end{aligned}$
继续观察，由于 $\alpha^{(i)}$ 是向量 $\alpha = (\alpha^{(1)},\cdots,\alpha^{(N)})_{N \times 1}^T$ 的一个元素，因此而它是一个常数。并且连加符号操作只是对 $\phi(x^{(i)})$ 各项元素进行累加运算，不改变向量结果的维度。最终表示为如下形式：
$\begin{aligned} \alpha^T\mathcal K\alpha & = \left[\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)})\right]^T \left[\sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})\right] \\ & = \left\langle\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)}),\sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})\right\rangle \end{aligned}$
观察，虽然使用 $i, j$ 两个符号去遍历 $1,2,\cdots,N$ ,但都是对 $\alpha^{(\cdot)}\phi(x^{(\cdot)}) \quad (\cdot \to i,j)$ 进行计算，因此：
$\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)}) = \sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})$
根据向量内积的定义，有：
由于 $\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)}) = \sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})$ ,意味着向量 $\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)})$ 和向量 $\sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})$ 是完全重合的，因此两向量之间夹角 $\theta = 0$
$\begin{aligned} & \left\langle\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)}),\sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})\right\rangle \\ & = |\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)})|\cdot |\sum_{j=1}^N\alpha^{(j)}\phi(x^{(j)})| \cos \theta \\ & = ||\sum_{i=1}^N\alpha^{(i)}\phi(x^{(i)})||^2 \geq0 \end{aligned}$
至此证明 $\mathcal K$ 是半正定矩阵。

正定性的充分性证明

证明要求：已知核矩阵 $\mathcal K$ 是半正定矩阵，求证： $\kappa(x^{(i)},x^{(j)})$ 是正定核函数。

证明：
由于 $\mathcal K$ 是半正定矩阵，那么 $\mathcal K$ 必包含 $N$ 个线性无关的特征向量。因此根据实对称矩阵的定义，对 $\mathcal K$ 进行特征分解：
$\mathcal K = \mathcal V\Lambda\mathcal V^T$
对上述相关向量进行定义：
$\mathcal V = (v_1,v_2,\cdots,v_N)_{N\times N} \quad \Lambda = \begin{pmatrix} \lambda_1 & & \\ & \lambda_2 & \\ & &\ddots \\ & & &\lambda_N \end{pmatrix}_{N \times N}$
至此，矩阵 $\mathcal K$ 表示如下：
注意： $\lambda_i(i=1,2,\cdots,N)$ 表示常数； $v_i(i=1,2,\cdots,N)$ 表示 $\times 1$ 的列向量。
$\begin{aligned} \mathcal K & = (v_1,v_2,\cdots,v_N) \begin{pmatrix} \lambda_1 & & \\ & \lambda_2 & \\ & &\ddots \\ & & &\lambda_N \end{pmatrix}\begin{pmatrix} v_1^T \\ v_2^T \\ \vdots \\ v_N^T\end{pmatrix} \\ & = (\lambda_1 v_1,\lambda_2v_2,\cdots,\lambda_N v_N)\begin{pmatrix} v_1^T \\ v_2^T \\ \vdots \\ v_N^T\end{pmatrix}\\ & = \lambda_1v_1v_1^T + \lambda_2v_2v_2^T + \cdots +\lambda_Nv_Nv_N^T \\ & = \sum_{i=1}^N\lambda_i v_i v_i^T \end{aligned}$

至此，通过特征值分解得到了关于 $\mathcal K$ 的描述。使用 $\lambda,v$ 重新对 $\mathcal K$ 进行描述。
在对 $\mathcal K$ 描述之前，我们对 $v_i$ 进行描述。 $v_i$ 本质上是 $N$ 个任取样本第 $i$ 维度结果构成的向量：
这里 $v_i^{k}(k=1,2,\cdots,N)$ 表示一个实数。是个一维信息。
$v_i = (v_i^{(1)},v_i^{(2)},\cdots,v_i^{(N)})^T_{N \times 1}$
半正定矩阵 $\mathcal K$ 的描述如下：
$\sum_{i=1}^N\lambda_i$ 看做常数，直接带入即可。
$\begin{aligned} \mathcal K &= \sum_{i=1}^N\lambda_i v_i v_i^T \\ & = \sum_{i=1}^N\lambda_i \begin{pmatrix}v_i^{(1)}\\v_i^{(2)}\\ \vdots \\ v_i^{(N)}\end{pmatrix}(v_i^{(1)},v_i^{(2)},\cdots,v_i^{(N)}) \\ & = \begin{pmatrix} \sum_{i=1}^N \lambda_iv_i^{(1)}v_i^{(1)},\sum_{i=1}^N \lambda_iv_i^{(1)}v_i^{(2)},\cdots,\sum_{i=1}^N \lambda_iv_i^{(1)}v_i^{(N)} \\ \sum_{i=1}^N \lambda_iv_i^{(2)}v_i^{(1)},\sum_{i=1}^N \lambda_iv_i^{(2)}v_i^{(2)},\cdots,\sum_{i=1}^N \lambda_iv_i^{(2)}v_i^{(N)} \\ \vdots \\ \sum_{i=1}^N \lambda_iv_i^{(N)}v_i^{(1)},\sum_{i=1}^N \lambda_iv_i^{(N)}v_i^{(2)},\cdots,\sum_{i=1}^N \lambda_iv_i^{(N)}v_i^{(N)} \\ \end{pmatrix}_{N \times N} \end{aligned}$
为了表达方便，将上述矩阵中的每一项元素改写成如下形式。这里以第 $j$ 行，第 $k$ 列的元素 $\sum_{i=1}^N \lambda_iv_i^{(j)}v_i^{(k)}$ 为例：
矩阵乘法~
$\sqrt{\lambda^{(j)}},\sqrt{\lambda^{(k)}}$ 均是常数，可以提出来。
$\begin{aligned} \sum_{i=1}^N \lambda_iv_i^{(j)}v_i^{(k)} & = \sum_{i=1}^N \sqrt{\lambda_i^{(j)}\lambda_i^{(k)}}v_i^{(j)}v_i^{(k)} \\ & = \sum_{i=1}^N \left(\sqrt{\lambda_i^{(j)}}v_i^{(j)}\right)\left(\sqrt{\lambda_i^{(k)}}v_i^{(k)}\right) \\ & = \left(\sqrt{\lambda^{(j)}}v^{(j)}\right)^T\left(\sqrt{\lambda^{(k)}}v^{(k)}\right) \\ & = \sqrt{\lambda^{(j)}\lambda^{(k)}} \left[v^{(j)}\right]^T\cdot v^{(k)} \end{aligned}$

令 $\phi(x^{(j)}) = \sqrt{\lambda^{(j)}}v^{(j)},\phi(x^{(k)}) = \sqrt{\lambda^{(k)}}v^{(k)}$ ，则有：
$\begin{aligned} \kappa(x^{(j)},x^{(k)}) & = \sum_{i=1}^N \lambda_i v_i^{(j)}v_i^{(k)} \\ & = \sqrt{\lambda^{(j)}\lambda^{(k)}} \left[v^{(j)}\right]^T \cdot v^{(k)} \\ & = \left(\sqrt{\lambda^{(j)}}v^{(j)}\right)^T\left(\sqrt{\lambda^{(k)}}v^{(k)}\right)\\ & = \left[\phi(x^{(j)})\right]^T\phi(x^{(k)}) \\ \end{aligned}$
证毕。
至此，核函数部分相关介绍结束，下一节将继续介绍概率图模型中的高斯图。