DA-1-再生核Hilbert空间

无CCFA就不改名

于 2021-09-08 23:01:19 发布

阅读量232

点赞数

分类专栏： Domain Adaptation 文章标签：线性代数

原文链接：http://songcy.net/posts/story-of-basis-and-kernel-part-2/

版权

Domain Adaptation 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

Reproducing Kernel Hilbert Space,再生核希尔伯特空间

原文链接:http://songcy.net/posts/story-of-basis-and-kernel-part-2/

本文主要讨论和函数核再生核希尔伯特空间（reproducing kernel Hilbert space， RKHS）。
核方法的动机在于映射一个 $\mathcal{R}^{n}$ 空间中的向量为特征空间中的另一个向量。
如下图所示，红色和蓝色的数据点在 $\mathcal{R}^{n}$ 空间中是不易分的。但如果将这些数据点映射到高维特征空间，我们也许可以使其容易分开。本文不提供严格的理论定义，而是对基本思想的直观描述。
在这里插入图片描述

Eigen Decomposition

对于实对称矩阵 $\mathbf{A}$ , 存在实数 $\lambda$ 和向量 $\mathbf{x}$ 使得
$\mathbf{Ax}=\lambda \mathbf{x} \tag{1}$

Kernel Function

函数 $f(\mathbf{x})$ 可以看作是一个无限向量。对于一个有着两个独立变量的 $K(\mathbf{x,y})$ ,我们可以将它看作是一个无限的矩阵。对此有 $K(\mathbf{x,y})=K(\mathbf{y,x})$ 并且
$\iint f(\mathbf{x}) K(\mathbf{x,y}) f(\mathbf{y}) d\mathbf{x}d\mathbf{y}\geq 0$
则对于任意的函数 $f$ , $K(\mathbf{x,y})$ 是对称正定的，在这种情况下 $K(\mathbf{x}$ ， $\mathbf{y})$ 是一个核函数.
类似于矩阵的特征根和特征向量，存在特征根 $\lambda$ 和特征函数 $\psi(\mathbf{x})$ 使得
$\int K(\mathbf{x,y})\psi(\mathbf{x})d\mathbf{x}=\lambda\psi(\mathbf{y})$

个人理解就是左边的式子对 x 做积分，就得到一个关于y的特征函数的特征根

那么对于不同的特征根 $\lambda_{1},\lambda_{2}$ , 且分别对应于不同的特征函数 $\psi_{1}(\mathbf{x})$ , $\psi_{2}(\mathbf{x})$ ，我们可以得到

$\begin{aligned}\int \lambda_{1} \psi_{1}(\mathbf{x}) \psi_{2}(\mathbf{x}) d \mathbf{x} &=\iint K(\mathbf{y}, \mathbf{x}) \psi_{1}(\mathbf{y}) d \mathbf{y} \psi_{2}(\mathbf{x}) d \mathbf{x} \\&=\iint K(\mathbf{x}, \mathbf{y}) \psi_{2}(\mathbf{x}) d \mathbf{x} \psi_{1}(\mathbf{y}) d \mathbf{y} \\&=\int \lambda_{2} \psi_{2}(\mathbf{y}) \psi_{1}(\mathbf{y}) d \mathbf{y} \\&=\int \lambda_{2} \psi_{2}(\mathbf{x}) \psi_{1}(\mathbf{x}) d \mathbf{x}\end{aligned}$

因此 $<\psi_{1},\psi_{2}>=\int \psi_{1}(\mathbf{x})\psi_{2}(\mathbf{x})d\mathbf{x}=0$
再一次地，特征函数为正交的。此处 $\psi$ 表示函数本身（一个无限的向量）。
对于一个核函数，无限的特征根 $\{\lambda_{i}\}^{\infty}_{i=1}$ 与无限的特征函数 $\{\psi_{i}\}^{\infty}_{i=1}$ 可以找到。同样地，对于矩阵来说
$K(\mathbf{x}, \mathbf{y})=\sum_{i=0}^{\infty} \lambda_{i} \psi_{i}(\mathbf{x}) \psi_{i}(\mathbf{y})$

即 Mercer’s theorem，此处 $<\psi_{1},\psi_{2}>=0，i\neq j$ 。因此， $\{\psi_{i}\}^{\infty}_{i=1}$ 构建了一组函数空间的正交基。

常见核

Polunomial kernel $K(\mathbf{x,y})=(\gamma x^{T}y+C)^d$
Gaussian radial basis kernel $K(\mathbf{x,y})=\exp (-\gamma ||\mathbf{x-y}||^{2})$
Sigmoid kernel $K(\mathbf{x,y})=\tanh (\gamma \mathbf{x^{T}y}+C)$

Reproducing Kernel Hilbert Space

$\{\sqrt{\lambda_{i}} \psi_{i}\}_{i=1}^{\infty}$ 为一组正交基并构造一个希尔伯特空间 $\mathcal{H}$ （Hilbert space）。在空间中的任何函数和向量都可以用基线性表示出来。假设

$f=\sum\limits_{i=1}^{\infty}f_{i}\sqrt{\lambda_{1}}\psi_{i}$

我们将 $\mathcal{H}$ 中的一个无限向量记为 $f$
$f=(f_{1},f_{2},\cdots)_{\mathcal{H}}^{T}$
对于其他的函数 $g=(g_{1},g_{2},\cdots)_{\mathcal{H}}^{T}$ ，有
$<f,g>_{\mathcal{H}}=\sum_{i=1}^{\infty}f_{i}g_{i}$

对于核函数 $K$ ,在此使用 $K(\mathbf{x}, \mathbf{y})$ 来表示在参数点 $\mathbf{x,y}$ 处的 $K$ 值的评估，使用 $K(\cdot ,\cdot )$ 来表示函数本身（即无限矩阵），使用 $K(\mathbf{x},\cdot )$ 来表示矩阵的第 $\mathbf{x}$ 行。例如，我们将核函数的一个参数固定为 $\mathbf{x}$ ，则可以将其看作为一个参数的函数或无限的向量，则有
$K(\mathbf{x},\cdot)=\sum_{i=0}^{\infty}\lambda_{i}\psi_{i}(\mathbf{x})\psi_{i}$
在 $\mathcal{H}$ 空间中，可记作
$K(\mathbf{x},\cdot)=(\sqrt{\lambda_{1}}\psi_{1}(\mathbf{x}),\sqrt{\lambda_{2}}\psi_{2}(\mathbf{x}),\cdots)_{\mathcal{H}}^{T}$
因此
$<K(\mathbf{x,\cdot}),K(\mathbf{y},\cdot)>_{\mathcal{H}}=\sum_{i=0}^{\infty} \lambda_{i} \psi_{i}(\mathbf{x})\psi_{i}(\mathbf{y})=K(\mathbf{x,y})$

这就是再生性，因此 $\mathcal{H}$ 被称为再生希尔伯特空间（ reproducing kernel Hilbert space ，RKHS）

回到最初的问题：怎样将点映射到特征空间？如果定义一种映射：
$\mathbf{\Phi}(\mathbf{x})=K(\mathbf{x}, \cdot)=\left(\sqrt{\lambda_{1}} \psi_{1}(\mathbf{x}), \sqrt{\lambda_{2}} \psi_{2}(\mathbf{x}), \cdots\right)^{T}$

然后我们将点 $\mathbf{x}$ 映射到 $\mathcal{H}$ ,此处 $\Phi$ 不是一个函数，因为它指向特征空间 $\mathcal{H}$ 的向量或函数,于是有
$<\mathbf{\Phi}(\mathbf{x}), \mathbf{\Phi}(\mathbf{y})>_{\mathcal{H}}=<K(\mathbf{x}, \cdot), K(\mathbf{y}, \cdot)>_{\mathcal{H}}=K(\mathbf{x}, \mathbf{y})$

因此，我们不需要知道什么是映射，特征空间在哪里，或者特征空间的基础是什么。对于对称正定函数 $K$ ，必须至少存在一个映射 $\bold{\Phi}$ 和一个特征空间 $\mathcal{H}$ ，使
$<\mathbf{\Phi}(\mathbf{x}), \mathbf{\Phi}(\mathbf{y})>=K(\mathbf{x}, \mathbf{y})$
这就是所谓的kernel trick。

Support Vector Machine

支持向量机(SVM)是RKHS最广为人知的应用之一。假设我们有数据对 ${(\mathbf{x}_i,y_i)}_{i=1}^n$ ，其中 $y_i$ 为1或-1，表示点 $\mathbf{x}_{i}$ 的类。支持向量机假设一个超平面来最好地分离这两个类。

$\min_{\beta,\beta_{0}}\frac{1}{2}||\beta||^{2}+C\sum_{i=1}^{n}\xi_{i}$
$\ to \ \xi_{i}\geq 0,y_{i}(\mathbf{x}_{i}^{T}\beta+\beta_{0})\geq1-\xi_{i},\forall i$

有时这两个类在 $\mathcal{R}^n$ 空间中很难分离，因此可以将 $\mathbf{x}_i$ 映射到高维特征空间中，在高维特征空间中这两个类很容易分离。原来的问题可以重新表述为

$\min_{\beta,\beta_{0}}\frac{1}{2}||\beta||^{2}+C\sum_{i=1}^{n}\xi_{i}$
$\ to \ \xi_{i}\geq 0,y_{i}(\Phi(\mathbf{x}_{i})^{T}\beta+\beta_{0})\geq1-\xi_{i},\forall i$

增广拉格朗日函数为
$L_{p}=\frac{1}{2} ||\beta||^{2}+C\sum_{i=1}^{n}\xi_{i}-\sum_{i=1}^{n}\alpha_{i}[y_{i}(\Phi(\mathbf{x}_{i})^{T}\beta+\beta_{0})-(1-\xi_{i})]-\sum_{i=1}^{n}\mu_{i}\xi_{i}$

由于 $\frac{\partial L_{p}}{\partial \beta} =0$
我们得到 $\beta =\sum_{i=1}^{n} \alpha_{i}y_{i}\Phi(\mathbf{x}_{i})$

也就是说， $\boldsymbol{\beta}$ 可以写成 $\mathbf{x}_i$ s !我们可以将 $\boldsymbol{\beta}$ 替换为新的优化问题。目标函数变为
$\begin{aligned}& \frac{1}{2}\left\|\sum_{i=1}^{n} \alpha_{i} y_{i} \boldsymbol{\Phi}\left(\mathbf{x}_{i}\right)\right\|^{2}+C \sum_{i=1}^{n} \xi_{i} \\=& \frac{1}{2}<\sum_{i=1}^{n} \alpha_{i} y_{i} \mathbf{\Phi}\left(\mathbf{x}_{i}\right), \sum_{j=1}^{n} \alpha_{j} y_{j} \mathbf{\Phi}\left(\mathbf{x}_{j}\right)>+C \sum_{i=1}^{n} \xi_{i} \\=& \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}<\mathbf{\Phi}\left(\mathbf{x}_{i}\right), \mathbf{\Phi}\left(\mathbf{x}_{j}\right)>+C \sum_{i=1}^{n} \xi_{i} \\=& \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)+C \sum_{i=1}^{n} \xi_{i}\end{aligned}$
约束改变为:
$\begin{aligned} &y_{i}\left[\mathbf{\Phi}\left(\mathbf{x}_{i}\right)^{T}\left(\sum_{j=1}^{n} \alpha_{j} y_{j} \mathbf{\Phi}\left(\mathbf{x}_{j}\right)\right)+\beta_{0}\right] \\ =& y_{i}\left[\left(\sum_{j=1}^{n} \alpha_{j} y_{j}<\mathbf{\Phi}\left(\mathbf{x}_{i}\right), \mathbf{\Phi}\left(\mathbf{x}_{j}\right)>\right)+\beta_{0}\right] \\ =& y_{i}\left[\left(\sum_{j=1}^{n} \alpha_{j} y_{j} K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)\right)+\beta_{0}\right] \geq 1-\xi_{i}, \forall i\end{aligned}$

我们需要做的是确定一个核函数并解出 ${\ α}，β_0， ξ_i$ 。我们不需要实际构造特征空间。对于具有未知类的新数据 $\mathbf{x}$ ，我们可以使用一下算式预测它的类

$\begin{array}{ll} \hat{y} &=\mathbf{sign}[\Phi(\mathbf{x})^{T}\beta+\beta_{0}]\\ &=\mathbf{sign}[\Phi(\mathbf{x})^{T}(\sum_{i=1}^{n}\alpha_{i}y_{i}\Phi(\mathbf{x}_{i}))+\beta_{0}]\\ &=\mathbf{sign}(\sum_{i=1}^{n}\alpha_{i}y_{i}<\Phi(\mathbf{x}),\Phi(\mathbf{x}_{i})>+\beta_{0})\\ &=\mathbf{sign}(\sum_{i=1}^{n}\alpha_{i}y_{i}K(\mathbf{x},\mathbf{x}_{i})+\beta_{0}) \end{array}$

核方法增强了支持向量机的鉴别能力。

领域自适应入门参考博文

MMD, https://www.cnblogs.com/zhangcn/p/13710192.html
核均值嵌入， https://www.cnblogs.com/zhangcn/p/13710192.html
再生Hilbert空间，https://www.cnblogs.com/zhangcn/p/13289236.html
Domain Adaptation1，https://www.cnblogs.com/zhangcn/p/14239570.html

无CCFA就不改名

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DA-1-再生核Hilbert空间

Reproducing Kernel Hilbert Space,再生核希尔伯特空间Eigen Decomposition翻译的原文链接本文主要讨论和函数核再生核希尔伯特空间（reproducing kernel Hilbert space， RKHS）。核方法的动机在于映射一个Rn\mathcal{R}^{n}Rn空间中的向量为特征空间中的另一个向量。如下图所示，红色和蓝色的数据点在Rn\mathcal{R}^{n}Rn空间中是不易分的。但如果将这些数据点映射到高维特征空间，我们也许可以使其容易分
复制链接

扫一扫