希尔伯特空间(Hilbert space)

SATAN 先生

已于 2023-09-09 16:58:00 修改

阅读量5.8k

点赞数 18

分类专栏：机器学习数学文章标签：人工智能抽象代数线性代数

于 2023-07-25 14:42:48 首次发布

本文链接：https://blog.csdn.net/qq_32527569/article/details/131903110

版权

机器学习同时被 2 个专栏收录

23 篇文章

订阅专栏

数学

13 篇文章

订阅专栏

1. Introduction

在学习机器学习时，老是遇到希尔伯特空间的概念，一查资料就是 “完备的内积空间”、“对欧式空间的推广”。对于非数学专业的人来说，这太难理解，因为印象中，内积空间不就是欧式空间吗？况且它是完备的。希尔伯特空间到底是如何推广欧式空间的？于是查阅英文 Wikipedia，以及一些英文博客，主要是：Hilbert Spaces、Hilbert Space - Wikipedia、Reproducing kernel Hilbert space 以及 Changyue Song 的几篇博客。

2. From Vector to Function

对于没接触过实变函数与泛函分析的人来说，向量就是欧式空间 $\mathbb{R}^n$ 中的元素，是由 $n$ 个有序的标量组成的数组，如 $(1, 3, 2)$ 是三维向量。然而，向量并不一定是这样的，还有许多其他的数学对象和欧式向量性质很相似，比如满足线性运算等，甚至可以计算 “内积”。下面就以更宽广的视野看 Vector Space。

2.1 The Definition of Vector Space

首先，让我们来拓展一下对向量的认知。我们知道欧式空间是一个向量空间，其中的元素 $\bm{x}, \bm{y} \in \mathbb{R}^n$ ，以及 $\in \mathbb{R}$ ，满足一些性质，如： $(a\bm{x} + b\bm{y}) \in \mathbb{R}^n$ 。那向量空间的真正定义是什么呢？Vector Space - Wikipedia：

这个定义比较正式详细地说明了什么是向量空间，我们最常打交道的欧式空间当然满足这 8 个公理。但向量空间不一定就像欧式空间那样以一组有序数组作为向量，之前在博文《流形介绍》中就碰到了微分算子作为向量的情况：

继续看：

标量域是实数的话，向量空间被称为实向量空间，标量域是复数的话，向量空间被称为复向量空间，当然也可以是其他域，只不过这两个域是最常见的。

后面的例子中出现了 Function Space：

确实，一般的函数也满足这 8 条公理，那这么说，函数空间也可以称为向量空间了。博文 From Vector to Function — Transformations, Basis, and Kernel Method 比较形象地说明了函数其实是无限维向量：

根据前面说的 “real numbers” 和 “complex numbers”，函数的值可以是实数或者复数，相应的函数空间也对应 “实向量空间” 和 “复向量空间” 吧。

2.2 Inner Product Space

欧式空间中的内积就是对于 $\bm{x}, \bm{y} \in \mathbb{R}^n$ ， $\bm{x}^\intercal\bm{y} = \sum_{i=1}^n x_i y_i$ ，又可以写为 $\bm{x} \cdot \bm{y}$ ，所以又叫做点积：

以 $\mathbb{R}^3$ 为例，它定义了点积，给定 $\bm{x}, \bm{y} \in \mathbb{R}^3$ ，它们的点积为：

点积满足如下性质：

即对称性、线性和正定性。

这一段像泛化向量一样泛化了内积：像点积这样的运算，它作用在两个向量上，且满足以上三条性质，就叫内积。给向量空间安装一个内积运算，就成了内积空间。每个有限维的内积空间都是一个 Hilbert Space。【这里没有指出计算结果应该是一个相应数域的标量，括号里的那个 “real”】

既然泛化了内积，就看看其他向量空间中的内积吧，以上面的函数空间为例：

不再像欧氏空间中的向量那样把对应点的乘积累加，函数作为向量是无限维的，以致这样的累加不收敛。而下面的积分式子可能是收敛的。考虑相邻 dimensions 间距 $\Delta x$ ，对于离散的欧式向量 $\Delta x = 1$ 。【当然，这个积分得存在才行】显然，函数内积是满足对称性、线性和正定性的。

3. Hilbert Space

这一节来正式地看一看什么是 Hilbert Space。先以欧氏空间为例子讲解定义中的概念，然后再以傅里叶级数讲述函数空间如何称为希尔伯特空间。

3.1 Definition

有了前面对向量空间的拓展，接下来就可以看 Wikipedia 中对 Hilbert Spaces 的 Definition 了：

这个定义中有两个关键点：

Hilbert Space 是一个配备了内积的向量空间；
在由此内积引出的距离函数下，该向量空间是完备的度量空间。

对于第一点，前面的 Inner Product Space 已经讲清楚了。下面看欧式空间如何在第二点上匹配这个希尔伯特空间的定义。

距离函数是这样的，内积引出一个范数，两向量之差的范数又引出了向量之间的距离。对于我们熟悉的欧式空间，显然是这样的，这就是欧式距离，所以它成了一个度量空间，关于完备性的证明，涉及太多泛函分析的知识，且相当抽象，就不深入探究了。不过有一点可以记住：不完备的赋范向量空间一定可以完备化。还有：

在没有完备性要求时，由范数导出的度量空间是一个 Hausdorff pre-Hilbert space，完备化后就是一个 Hilbert space。

3.1.1 $\to 内积空间 \to 赋范向量空间 \to 度量空间 \to 希尔伯特空间$

对于一般的 “ $\to 内积空间 \to 赋范向量空间 \to 度量空间 \to 希尔伯特空间$ ” 的过程，都是很自然的，只有 $\to 赋范向量空间$ 的三角不等式有点绕。先看范数的正式定义：

在这里插入图片描述

其中的正定性和绝对一次齐次性，都可以分别由内积的正定性和线性自然导出，而三角不等式有点绕，《【泛函基础 3.1】内积空间》中讲的不错。

所以，向量空间只要定义了一个内积，它至少就是 Hausdorff pre-Hilbert space，如果又在内积导出的距离函数下是完备的，它就是 Hilbert space。

呃！扯了这么多，翻看《实变函数与泛函分析》，才知道第九章第一节讲的很清楚，不过那里没有强调线性空间的任意性，只讲了复向量空间。对于非数学专业的人来说，这样的片段式翻看会使思维局限于普通的数组式向量空间，好在后面的例1，举了一个函数内积的例子。

$L^2[a, b]$ 可能是指区间 $[a, b]$ 上的平方可积函数的全体集合。

3.1.2 提到核函数

Wikipedia 在讲述 History 时，有函数空间作为内积空间的内容：

对于在区间 $[a, b]$ 上平方可积的两个函数 $f, g$ ，可定义这样一个内积，它和欧式空间的点积有很多相似的性质，而且正交函数系的思想是有意义的。

有个叫 Schmidt 的人还证明了类似谱分解的东西： $\mapsto \int_a^b K(x, y)f(y) dy$ ，从形式上看，这有点像欧氏空间中的矩阵和向量的乘法：矩阵乘向量得到另一个向量。下面一个式子是 $K (x, y)$ 的特征展开式，这又类似于实对称矩阵的特征分解。关于这一段，有两个东西很重要，一个是傅里叶变换，一个是 SVM 中的核方法。Changyue Song 的几篇博客讲的比较好。下面我摘抄一部分，并做一些注释。

3.2 Fourier Series

这一小节主要回顾一下傅里叶级数，并以函数空间【希尔伯特空间】的概念去理解它。包括高数中学的傅里叶三角级数、Song 中的复数形式，以及 Wikipedia 中讲述的两者之间的关系。

3.2.1 高数中的傅里叶级数

首先，高数中是学过傅里叶级数的，当时也看懂了学会了，只觉得它是一种函数分析工具，并没有意识到它和向量之间的关系，可能是当时老师教线性代数教的太差，一本薄薄的线性代数教材上来就讲行列式如何计算，矩阵如何进行特征分解，全然不知背后的意义是什么。回过头来看，恍然大悟。学校的高数教材还是相当不错的，故事讲得好，可惜全毁在线性代数上了。

这里先给出一个问题：“是否都可以用若干个以 $2\pi$ 为周期的简谐振动的合成来表示呢?” 也交代了接下来要干的事。

这一段交代了将函数转换成三角级数时的研究内容：求系数 $a_k, b_k$ ，收敛条件。前面的问题大概也就回答了：能求出 $a_k, b_k$ ，且级数收敛于 $f (x)$ 。

看到了 “正交函数系” 几个大字，当时竟然没联想起线性代数中的标准正交基。

这个三角函数族，也即三角级数的各项，是一组正交函数系。这些都是妥妥的函数内积啊！类比欧式向量空间，就是正交向量组。

看这里面的求系数方法，清清楚楚地讲述了 “系数就是函数在基上的投影”，也即函数之间的内积也是有投影意义的，根据 Song 的博文中，函数内积的的无限采样求累加，也可以知道函数内积的投影意义。这就类似于欧式向量空间中的坐标投影：向量 $\bm{x} = \{x_1, x_2, \cdots, x_n\}$ ，与基向量 $\bm{e}_i = \{0, 0, \cdots, e_i=1, 0, \cdots, 0\}$ 的内积 $\bm{x}^\intercal \bm{e}_i = x_i$ ，计算了 $\bm{x}$ 在 $\bm{e}_i$ 方向上的分量。

非 $2\pi$ 周期函数只需变换三角函数的周期就行了。

3.2.2 傅里叶级数的复数形式

这是 Song 的博文 A Story of Basis and Kernel - Part I: Function Basis 中的内容，讲得比较精辟。Wikipedia 利用欧拉公式给出了傅里叶级数得三角形式和复数形式之间的关系：

在这里插入图片描述

这也是从一种形式变换到另一种形式的方式。乍一看不好理解，举个实例就好了， $\sum_{n=-\infin}^{\infin} c_n \cdot e^{\frac{2\pi inx}{p}}$ 中， $n$ 是全体整数，而 $A_n, B_n$ 中， $n$ 是非负的整数。那么，我们就一对儿整数 $(i, - i)$ 地看，如取 $(2, - 2)$ ，则取出了 $c_2 \cdot e^{\frac{2\pi i2x}{p}}$ 和 $c_{-2} \cdot e^{\frac{-2\pi i2x}{p}}$ ，则 $\begin{aligned} & c_2 \cdot e^{\frac{2\pi i2x}{p}} + c_{-2} \cdot e^{\frac{-2\pi i2x}{p}} \\ =& c_2(cos{\frac{2\pi2x}{p}} + isin{\frac{2\pi2x}{p}}) + c_{-2}(cos{\frac{2\pi2x}{p}} - isin{\frac{2\pi2x}{p}}) \\ =& (c_2 + c_{-2})cos{\frac{2\pi2x}{p}} + i(c_{2} - c_{-2})sin{\frac{2\pi2x}{p}} \\ =& A_2cos{\frac{2\pi2x}{p}} + B_2sin{\frac{2\pi2x}{p}} \end{aligned}$

4. Reproducing Kernel Hilbert Space

前面几节已经彻底搞明白了什么是希尔伯特空间，下面就可以继续前进，探索核函数和再生核希尔伯特空间了。如果不搞明白什么是希尔伯特空间，思想就只能停留在 “核函数可以将输入 $\bm{x}$ 映射至更高维的特征空间，甚至是无穷维，以便将线性不可分问题转为线性可分问题；至于怎么映射的，是隐式的，且方式不唯一，但映射后的内积结果是确定的”，只能理解到这了吧，顶多再找个椭圆的例子自我说服一下：

《统计学习方法》中讲的通俗易懂，原本是椭圆的曲线，经过变量代换后，在新空间中成了直线。【即映射至新的特征空间】

核函数的正式定义，从这个定义中可知，这本质上是直接求映射后不同样本之间的内积，而不在乎具体映射是什么。这是由于求解 SVM 的对偶问题时，仅需要知道不同样本特征之间的内积即可，而不必知道特征是如何映射的。

你甚至可以将二维欧式空间中更一般的椭圆映射成三维甚至四维空间中的(超)平面，同时也说明了映射的多样性，相同的是，映射后数据之间的内积是一样的，即核函数是一样的。

最后，这里告诉你映射后的特征空间是一个希尔伯特空间，使得输入空间 $\mathbb{R}^n$ 中的超曲面对应特征空间中的超平面，进而就可以用支持向量机了。

按理来说，到这就行了，对于一个非数学专业的学生来说，这差不多足够了，但我强迫症，想要去了解一些问题：

这个特征空间到底是怎样的一个希尔伯特空间？即，给定核函数，对应了怎样的希尔伯特空间？
给定核函数，能找到具体的映射吗？
用核技巧就能提升性能吗？什么情况下、如何利用核技巧？
这种解决非线性问题的核技巧，和神经网路的非线性有何不同？

4.1 对应了怎样的希尔伯特空间？【核函数的特征值分解】

上面我们提到，在 Hilbert Space - Wikipedia 的 History 中，有一段将核函数进行特征分解的内容，后来在 A Story of Basis and Kernel - Part II: Reproducing Kernel Hilbert Space 中看到了更详细的解释。【但是里面有奇怪的地方，搞得我百思不得其解，大脑内有矛盾的时候是真的难受！】

先看普通矩阵的特征分解：

再看核函数 $K (x, y)$ ：

需要是对称的、半正定的，这与实对称矩阵的特征分解是一样的。在《统计学习方法中》，核函数的要求是：

关于任意样本组的 Gram 矩阵是半正定的，这等价于上面的核函数半正定。之所以这么写，大概是因为没有引入函数空间的概念。先不管《统计学习方法》了。

一样的，也能有特征向量。

和矩阵的特征分解一样，核函数被分解了。好！到了最关键的时候：核函数怎么就关联了一个希尔伯特空间了？这个空间是什么样的。

看，用 $\{\sqrt\lambda_i\psi_i\}$ 组成了一个函数空间的基函数，因为特征函数是正交的： $\begin{aligned} \langle \psi_i, \psi_j \rangle_{\mathcal{H}} = \left\{\begin{matrix} 1 & i = j & 这个~1~文中没有说明，但类比矩阵分解，我认为是这样的 \\ 0 & i \ne j & \end{matrix}\right. \end{aligned}$ 如此一来，就有 $\begin{aligned} \langle \sqrt\lambda_i\psi_i, \sqrt\lambda_j\psi_j \rangle_{\mathcal{H}} = \left\{\begin{matrix} \lambda_i & i = j \\ 0 & i \ne j \end{matrix}\right. \end{aligned}$ $\{\sqrt\lambda_i\psi_i\}$ 之间也是正交的。至于为什么用 $\{\sqrt\lambda_i\psi_i\}$ 而不是特征函数组本身 $\{\psi_i\}$ ，让人百思不得其解，也许是为了下面的核函数 $K (x, y)$ 的再生性质。至此，都还没什么问题，下面开始让人头疼了：

函数 $(f_1, f_2, \cdots)^\intercal$ 是函数 $f$ 的向量坐标，这没错，但求内积得把向量基给带上吧？即向量内积的正确计算方法应该是 $\begin{aligned} \langle f, g \rangle_{\mathcal{H}} &= \int (\sum_{i=1}^{\infin} f_i \sqrt\lambda_i\psi_i(t))(\sum_{j=1}^{\infin} g_j \sqrt\lambda_j\psi_j(t)) dt \\ &= \int \sum_{i=1,j=1}^{\infin} f_i g_j \sqrt{\lambda_i\lambda_j}\psi_i(t)\psi_j(t) dt \\ &= \sum_{i=1,j=1}^{\infin} f_i g_j \sqrt{\lambda_i\lambda_j}\int\psi_i(t)\psi_j(t) dt \\ &= \sum_{i=1,j=1}^{\infin} f_i g_j \sqrt{\lambda_i\lambda_j} \langle \psi_i, \psi_j \rangle_{\mathcal{H}} \\ &= \sum_{i=1}^{\infin} f_i g_i \lambda_i \end{aligned}$ 还有下面关键的再生性(Reproducing)也让人头疼：

按照我的认知，计算内积是要带上向量基的： $\begin{aligned} \langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} &= \int (\sum_{i=1}^{\infin} \lambda_i\psi_i(x)\psi_i(t))(\sum_{j=1}^{\infin} \lambda_j\psi_j(y)\psi_j(t)) dt \\ &= \int \sum_{i=1}^{\infin} \lambda_i\lambda_j\psi_i(x)\psi_j(y)\psi_i(t)\psi_j(t) dt \\ &= \sum_{i=1,j=1}^{\infin} \lambda_i\lambda_j \psi_i(x)\psi_j(y) \int\psi_i(t)\psi_j(t) dt \\ &= \sum_{i=1,j=1}^{\infin} \lambda_i\lambda_j \psi_i(x)\psi_j(y) \langle \psi_i, \psi_j \rangle_{\mathcal{H}} \\ &= \sum_{i=1}^{\infin} \lambda_i^2 \psi_i(x)\psi_j(y) \\ &\ne K(x, y) = \sum_{i=1}^{\infin} \lambda_i \psi_i(x)\psi_j(y) \end{aligned}$ 看到这里面多了个 $\lambda_i$ ，所以我盯上了基 $\{\sqrt\lambda_i\psi_i\}$ ，本来就觉得带上 $\sqrt\lambda_i$ 就奇怪。现在把它去掉： $\begin{aligned} \langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} &= \int (\sum_{i=1}^{\infin} \sqrt\lambda_i\psi_i(x)\psi_i(t))(\sum_{j=1}^{\infin} \sqrt\lambda_j\psi_j(y)\psi_j(t)) dt \\ &= \int \sum_{i=1}^{\infin} \sqrt{\lambda_i\lambda_j} \psi_i(x)\psi_j(y)\psi_i(t)\psi_j(t) dt \\ &= \sum_{i=1}^{\infin} \lambda_i \psi_i(x)\psi_j(y) \\ &= K(x, y) \end{aligned}$ 就对了，看来果然是 Song 写错了？现在，暂且认为基应该是 $\{\psi_i\}$ ，那么上面的函数 $f, g$ 也变成了 $\begin{aligned} f &= \sum_{i=1}^{\infin} f_i\psi_i \\ g &= \sum_{j=1}^{\infin} g_j\psi_j \end{aligned}$ 求内积也变成了 $\begin{aligned} \langle f, g \rangle_{\mathcal{H}} &= \int (\sum_{i=1}^{\infin} f_i \psi_i(t))(\sum_{j=1}^{\infin} g_j \psi_j(t)) dt \\ &= \int \sum_{i=1,j=1}^{\infin} f_i g_j \psi_i(t)\psi_j(t) dt \\ &= \sum_{i=1}^{\infin} f_i g_i \end{aligned}$ 这看起来和谐多了，似乎一切都和普通欧式矩阵分解一样了。而且我们找到了映射 $\Phi(x) = K(x, \cdot)$ ：

嗯！完美，看来 Song 认为基是 $\{\sqrt\lambda_i\psi_i\}$ 实属忘记了 “内积计算是要带上向量基的”！

但是，上面说了：“use $\cdot)$ to denote the $\bm{x}$ th “row” of the matrix, i.e., we fix one parameter of the kernel function to be $\bm{x}$ then we can regard it as a function with one parameter or as an infinite vector.” 而我们为了使 $\langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} = K(x, y)$ ，就得令 $\cdot) = \sum_{i=1}^{\infin} \sqrt\lambda_i\psi_i(x)\psi_i$ ，它不是核矩阵的一行，咋回事？难道真的不是一行？

也许不是看 Reproducing kernel Hilbert space - Wikipedia，我就这么天真地以为自己懂了核函数，而认为基应该是 $\{\psi_i\}$ ，就这么过去了。后来又出了矛盾！

为了连贯性，我直接跳到 Wikipedia 的 Definition 的 reproducing kernel 部分：

看样子这里给出的 $K_x$ 和 Song 博文中的 $\cdot)$ 是一样的。问题在于，这里出现了式 $(2)$ ： $\langle f, K_x \rangle_{\mathcal{H}}$ ，这意味着什么呀？一个向量 $f$ 和 $K_x$ 求了内积，得出的值是 $f (x)$ ，啊？这不是和欧式空间向量的 $\bm{e}_i$ 类似了吗？向量 $\bm{a} = (a_1, a_2, \cdots, a_n)$ 与 $\bm{e}_i$ 求内积 $\bm{a}^\intercal \bm{e}_i = a_i = a(i)$ 难道 $K_x$ 才是基函数？更离谱的是，如果把 $x$ 去掉， $\langle f, K_x \rangle_{\mathcal{H}}$ 就变成了 $\langle f, K \rangle_{\mathcal{H}}$ ，啊？难道 $K$ 成了类似单位矩阵的东西？不可能啊，因为单位矩阵 $I_{ij} = \left\{\begin{matrix} 1 & i=j & \\ 0 & i\ne j & \end{matrix}\right.$ ，而 $K$ 是个 “Gram 矩阵”，它怎么能是 $\left\{\begin{matrix} 1 & x = y & \\ 0 & x \ne y & \end{matrix}\right.$ 呢？此事蹊跷！

来吧！真实地算一遍看看： $\begin{aligned} \langle f, K_x \rangle_{\mathcal{H}} &= \int (\sum_{i=1}^{\infin} f_i \psi_i(t))(\sum_{j=1}^{\infin} \sqrt\lambda_j \psi_j(x) \psi_j(t)) dt \\ &= \int (\sum_{i=1,j=1}^{\infin} f_i \sqrt\lambda_j \psi_j(x) \psi_i(t)\psi_j(t)) dt \\ &= \sum_{i=1,j=1}^{\infin} f_i \sqrt\lambda_j \psi_j(x) \int \psi_i(t)\psi_j(t)) dt \\ &= \sum_{i=1}^{\infin} f_i \sqrt\lambda_i \psi_i(x) \\ &\ne f(x) = \sum_{i=1}^{\infin} f_i \psi_i(x) \end{aligned}$ 果然有猫腻，是哪里出了问题？ $\{\sqrt\lambda_i \psi_i\}$ 作为基不行， $\{\psi_i\}$ 作为基也不行，这可咋办？回去看看 Song 的文章，那种以 $\{\sqrt\lambda_i \psi_i\}$ 为基、算内积不带基的方式，确实符合 $\langle f, K_x \rangle_{\mathcal{H}}$ ： $\begin{aligned} \langle f, K_x \rangle_{\mathcal{H}} = \sum_{i=1}^{\infin} f_i \sqrt\lambda_i \psi_i(x) = f(x) \end{aligned}$ 但我不相信算内积可以不带基！

去翻一翻《统计学习方法》，看这里面怎么说：

果然，函数 $f$ 是以 $K_{x_i} = K(x_i, \cdot)$ 为基的，即函数空间中的函数都是 ${K_{x_i}\}$ 的线性组合，而且内积计算是连同基一起算的：

“定义运算” 四个字似乎表明这个内积运算是新定义的、不同以往，我觉得应该是指 $\begin{aligned} \langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} = K(x, y) \end{aligned}$ 毕竟书中并没有指出 $\cdot)$ 到底是什么，仅仅说其是定义的一个映射 $\phi: x \to K(x, \cdot)$ 指 $x$ 映射后的特征吧，再者， $K (x, y)$ 本身是指映射后的内积，故而定义这么一个内积运算是顺理成章的。后面的几个式子也是说明了：以 ${K_{x_i}\}$ 为基的函数的内积运算是符合内积的一般定义的。终于明了了，看来还是书好。映射后希尔伯特空间的一组基就是 ${K_{x_i}\}$ 。但我们依然不知道是什么样子的。

那回过头来， $\cdot)$ 到底可不可以是 $\sum_{i=1}^{\infin} \sqrt\lambda_i\psi_i(x)\psi_i(\cdot)$ ？算一下： $\begin{aligned} \langle f, K_x \rangle_{\mathcal{H}} &= \langle \sum_{i=1}^{m} f_i K(x_i, \cdot), K(x, \cdot)\rangle_{\mathcal{H}} \\ &= \sum_{i=1}^{m} f_i \langle K(x_i, \cdot), K(x, \cdot)\rangle_{\mathcal{H}} \\ &= \sum_{i=1}^{m} f_i \int (\sum_{j=1}^{\infin} \sqrt\lambda_j \psi_j(x_i) \psi_j(t))(\sum_{k=1}^{\infin} \sqrt\lambda_k \psi_k(x) \psi_k(t)) dt \\ &= \sum_{i=1}^{m} f_i \sum_{j=1,k=1}^{\infin} \sqrt{\lambda_j\lambda_k} \psi_j(x_i)\psi_k(x) \int \psi_j(t) \psi_k(t)) dt \\ &= \sum_{i=1}^{m} f_i \sum_{j=1}^{\infin} \lambda_j \psi_j(x_i)\psi_j(x) \\ &= \sum_{i=1}^{m} f_i K(x_i, x) \overset{?}{=} f(x) ~ ??? \end{aligned}$ 不对！这个不能划等于号，因为若划了等于号，就承认 $\Phi(x) = K(x, \cdot)$ 是矩阵 $K$ 的一行了。但前面我们以 $\{\psi_i\}$ 为基，且为了使带基的内积 $\langle K(x, \cdot), K(y, \cdot)\rangle_{\mathcal{H}} = K(x, y)$ ，就令 $K(x,\cdot) = \sum_{i=1}^{\infin} \sqrt\lambda_i \psi_i(x)\psi_i(\cdot)$ 了，如果把上面的式子划了等号，那么 $\sum_{i=1}^{\infin} \sqrt\lambda_i \psi_i(x)\psi_i(y) \ne \sum_{i=1}^{\infin} \lambda_i \psi_i(x)\psi_i(y)$ ，矛盾。故而我们又得出了 $\begin{aligned} \langle f, K_x \rangle_{\mathcal{H}} \ne f(x) \end{aligned}$ 所以得出结论：

若以常规的函数内积运算方式，即带上基函数且积分运算，无论基是 $\{\psi_i\}$ 还是 $\{\psi_i\}$ ，都无法得出 $\langle f, K_x \rangle_{\mathcal{H}} \ne f(x)$ ；故核矩阵的特征向量不作为此希尔伯特空间的基！
$\cdot)$ 确实是 “矩阵” $K$ 对应于 $x$ 的 “一行”， $\langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} = K(x, y)$ 是定义的内积，它符合内积的定义；在这种内积下，以 $\{K(x_i, \cdot)\}$ 为基，有 $\langle f, K_x \rangle_{\mathcal{H}} = f(x)$ ，Wikipedia 中 $L_x(f) = \langle f, K_x \rangle_{\mathcal{H}} = f(x)$ 作为取值函数也说得通；那么 $\langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} = K(x, y)$ 的解释是：用 $\cdot)$ 取 $\cdot)$ 的第 $x$ 个元素，或用 $\cdot)$ 取 $\cdot)$ 的第 $y$ 个元素；
在这种定义的内积下，一般函数 $f(\cdot) = \sum_i K(x_i, \cdot)$ 及 $g(\cdot) = \sum_j K(x_j, \cdot)$ 之间的内积是带上基的： $\langle f, g \rangle_{\mathcal{H}} = \sum_{ij} f_i g_j K(x_i, x_j)$ ；
不带基的 “内积” 也符合内积的定义，如 Song 的文章中的内积没有带上基 $\{\sqrt{\lambda_i}\psi_i\}$ ；也可以理解为，这种 “内积” 下基函数之间的内积为 $\langle \sqrt{\lambda_i}\psi_i, \sqrt{\lambda_j}\psi_j \rangle_{\mathcal{H}} = \left\{\begin{matrix} 1 & i = j \\ 0 & i \ne j \end{matrix}\right.$ ，而正规的内积应该是 $\langle \sqrt{\lambda_i}\psi_i, \sqrt{\lambda_j}\psi_j \rangle_{\mathcal{H}} = \left\{\begin{matrix} \lambda_i & i = j \\ 0 & i \ne j \end{matrix}\right.$ ，那么其导出的范数下，方向 $i$ 上的 “长度” 也被 “缩放” 为原来的 $1/\sqrt{\lambda_i}$ ；
依据 4 中的内积，Song 文章中的内积就说得通了，可以以带基的内积形式理解 $\langle f, K_x \rangle_{\mathcal{H}} = f(x)$ 和 $\langle K(x, \cdot), K(y, \cdot) \rangle_{\mathcal{H}} = K(x, y)$ ；但不知道是否是这种 “长度的缩放” 才有了非线性？应该不是，因为空间中每点在各个方向上都只是伸缩了相同的倍数，故直线还是直线。

怎样的希尔伯特空间？答案就在上面的结论里了。

4.2 其他三个问题

4.2.1 给定核函数，能找到具体的映射吗？

从上面对希尔伯特空间的分析来看，一般核函数是能找到一个具体核映射的，如上面讨论的多项式核函数和高斯核函数，都可表示为多项式的各项。只是比较麻烦。

而且，看似不唯一，但我感觉这种不唯一表现在某些项的拆分与合并： $(x_1^2, x_2^2, \sqrt2x_1x_2)$ 和 $x_1^2, x_2^2, x_1x_2, x_1x_2)$ 。

4.2.2 用核技巧就能提升性能吗？什么情况下、如何利用核技巧？

下面 4.2.3 讲述了非线性的来源。那么，多项式核函数可以逼近任意函数，只要次数够高，总有一组系数组合能够表示需要表示的曲线。高斯核是无穷维的，也就是它能逼近任意函数，所以，在不清楚数据特点时尝试使用高斯核是有道理的。

但是这种拟合能力超强的核函数，有过拟合的风险，以至于并不是越强越好，否则直接上一个高斯核不就好了吗？就不存在 “依据经验选择核函数” 的说法了！

4.2.3 这种解决非线性问题的核技巧，和神经网路的非线性有何不同？

那么，非线性怎么来的？先看一个最简单的二次多项式核函数： $K(\bm{x}, \bm{y}) = (\bm{x}^\intercal \bm{y})^2 = \sum_{ij} x_ix_jy_iy_j$ 可令映射为 $\Phi(\bm{x}) = \left\{\begin{matrix} x_i^2 & i = 1, 2, \cdots \\ \sqrt{2}x_ix_j & i \lt j \end{matrix}\right\}$ 。如 $\bm{x}^\intercal = (x_1, x_2)$ ，则 $\Phi(\bm{x})^\intercal = (x_1^2, x_2^2, \sqrt2 x_1x_2)$ ；SVM 是要找一个三维空间中的面 $\bm{w}^\intercal \Phi(\bm{x}) + b = w_1x_1^2 + w_2x_2^2 + w_3 \sqrt2 x_1x_2 + b = 0$ 适当的 $\bm{w}$ 可使这个式子表示二维空间中的一个椭圆，当然也可能是其他的二次曲线，也可能不存在。下图为 $\bm{w}^\intercal | b$ 取不同值时的图像：

$(1, 1, 1) ∣ - 1$	$(1, 1, - 1) ∣ - 1$	$\sqrt2) \| -1$

而 $\bm{w}^\intercal = (1, 1, 1), b=1$ 时，图象不存在。令 $\left \{ \begin{matrix} z_1 &= x_1^2 \ge 0 \\ z_2 &= x_2^2 \ge 0 \\ z_3 &= \sqrt{2} x_1x_2& \end{matrix} \right.$ 若 $z_1, z_2, z_3)$ 是自由的， $\bm{w}^\intercal\bm{z} + b = 0$ 可表示三维空间中任意的平面，但它不是自由的， $z_1, z_2, z_3)$ 实际上是三维空间中的二维流形，若平面 $\bm{w}^\intercal\bm{z} + b = 0$ 不经过该流形，则方程不成立，即上面说的无图象。若存在，则一些平面与流形的交线在二维空间 $x_1, x_2)$ 中表示为椭圆，一些表示为双曲线，甚至表示为直线。总之就是二次曲线。

三次多项式核函数(二维) $\begin{aligned}K(\bm{x}, \bm{y}) &= (\bm{x}^\intercal \bm{y})^3 = (x_1y_1)^3 + 3(x_1y_1)^2(x_2y_2) + 3(x_1y_1)(x_2y_2)^2 + (x_2y_2)^3 \\ &= (\bm{x}^\intercal \bm{y})^3 = x_1^3y_1^3 + (\sqrt3x_1^2x_2)(\sqrt3y_1^2y_2) + (\sqrt3x_1x_2^2)(\sqrt3y_1y_2^2) + x_2^3y_2^3 \\ &= (\bm{x}^\intercal \bm{y})^3 = (x_1^3, \sqrt3x_1^2x_2, \sqrt3x_1x_2^2, x_2^3)(x_1^3, \sqrt3x_1^2x_2, \sqrt3x_1x_2^2, x_2^3)^\intercal \\ &= \Phi(\bm{x})^\intercal \Phi(\bm{y}) \end{aligned}$ 则 $\bm{w}, b$ 取不同值时， $\bm{w}^\intercal \Phi(\bm{x}) + b = 0$ 的图象可为三次曲线：

其中每个颜色代表一种 $\bm{w}, b$ 取值。它们在映射后的四维空间中都是超平面。可见，多项式核函数确实可以实现一些非线性划分。

高斯核函数 $K(\bm{x}, \bm{y}) = exp(-\frac{\left \| \bm{x} - \bm{y} \right \|^2}{2\sigma^2})$ 可以将空间映射至无穷维，那么，根据前面的探究，数据会分布在这个无穷维空间中的二维流形上，调整 $\bm{w}, b$ ，也许会找到一个超平面将流形上的数据分开。且这个超平面与流形的交线，在原空间中就是将数据划分开的超曲面。

现在，我们能够根据核函数的表达式了解一部分其描述的曲面，当然仅仅是一小部分。假设有一个 $\bm{w}$ ，它也被映射到无穷维空间中，并与映射后的 $\bm{x}$ 求内积： $\Phi(\bm{w})^\intercal \Phi(\bm{x}) = K(\bm{w}, \bm{x}) = exp(-\frac{\left \| \bm{w} - \bm{x} \right \|^2}{2\sigma^2})$ ，现有超平面 $\Phi(\bm{w})^\intercal \Phi(\bm{x}) + b = 0$ ，即 $exp(-\frac{\left \| \bm{w} - \bm{x} \right \|^2}{2\sigma^2}) + b = 0$ ，若 $b < 0$ ，则该超平面存在，推出： $\left \| \bm{w} - \bm{x} \right \|^2 = -2\sigma^2ln(-b)$ 它在原空间表示为一个超球。若使用多项式核函数，则： $(\bm{w}^\intercal \bm{x})^n + b = 0$ $n=2,b\le0$ 时，表示双直线， $n = 3$ 时，表示单直线。而前面几幅图表明，多项式核函数可表示的曲线是丰富多样的，可见我们通过这种方式窥探到的曲面是非常少的一部分。