机器学习笔记-Kernel Logistic Regression

最新推荐文章于 2022-06-03 11:41:59 发布

土肥宅娘口三三

最新推荐文章于 2022-06-03 11:41:59 发布

阅读量4.7k

点赞数 1

分类专栏：机器学习文章标签：机器学习技法逻辑斯蒂+核函数 KLR 核函数

本文链接：https://blog.csdn.net/robin_Xu_shuai/article/details/78555493

版权

机器学习专栏收录该内容

31 篇文章 9 订阅

订阅专栏

Kernel Logistic Regression(带核函数的逻辑斯蒂回归)

本篇要介绍的是将Logistic Regression和Kernel函数结合在一起的应用。即我们要讨论的是：如果想要把 $Kernel$ 的技巧使用在 $logistic\ Regression$ 上，我们应该怎么做？

1 - Soft-Margin SVM as Regularized Model

1.1 - SVM及核模型

硬间隔SVM的原始形式(hard margin primal)：想要找一个能正确划分数据的最“胖”的边界，经过一些转换推导得到下面的问题。

m i n w, b s . t . 1 2 w T w y n (w T x n + b) \geq 1 (1387) (1388)

$\begin{align} \mathop {min} \limits_{w, b} \quad & \frac12w^Tw \\ s.t. \quad & y_n(w^Tx_n + b ) \ge 1 \end{align}$

硬间隔SVM的对偶形式(hard margin dual)：将原始问题转化为对偶问题。对偶问题的特点是：和经过特征转换之后的 $Z$ 空间的维度没有任何的关系，只和样本的数量有关系。当然要和 $Z$ 空间的维度完全没有关系还需要使用核技巧。

m i n α s . t . 1 2 \sum n = 1 N \sum m = 1 N α n α m y n y m z T n z m - \sum n = 1 M α n \sum n = 1 N y n α n = 0 a l l α n \geq 0 n = 1, 2, 3 \dots, N (1389) (1390) (1391) (1392)

$\begin{align} \mathop{min}\limits_{\alpha} \quad & \frac12\sum_{n=1}^{N}\sum_{m=1}^{N}\alpha_n\alpha_my_ny_mz_n^Tz_m-\sum_{n=1}^{M}\alpha_n \\ s.t. \quad & \sum_{n=1}^{N}y_n\alpha_n = 0 \\ & all \ \alpha_n \ge 0\\ & n = 1,2,3\cdots, N \end{align}$

软间隔的原始问题(soft margin primal)：从硬间隔出发，不再要求所有的数据点都需要被正确的划分，即允许有一些误分的数据点，然后对这些误分的数据点“犯的错”进行惩罚而得到了软间隔分类器，这样可以对噪声有一定的容忍度。

m i n w, b s . t . 1 2 w T w + C \sum n = 1 N ξ n y n (w T x n + b) \geq 1 - ξ n ξ n \geq 0 (1393) (1394) (1395)

$\begin{align} \mathop {min} \limits_{w, b} \quad & \frac12w^Tw+ C\sum_{n=1}^{N} \xi_n \\ s.t. \quad & y_n(w^Tx_n + b ) \ge 1 - \xi_n \\ & \xi_n \ge 0 \end{align}$

软间隔的对偶问题(soft margin dual)：和硬间隔的对偶问题几乎是一致的，唯一不同的地方就是 $\alpha_n$ 有上限 $C$ 。 $C$ 引入是为了平衡间隔的大小和对错误的容忍度。 $soft$ - $margin$ 是实务上比较常用的 $SVM$ 。

m i n α s . t . 1 2 \sum n = 1 N \sum m = 1 N α n α m y n y m z T n z m - \sum n = 1 M α n \sum n = 1 N y n α n = 0 a l l C \geq α n \geq 0 n = 1, 2, 3 \dots, N (1396) (1397) (1398) (1399)

1.2 - 松弛变量slack variables

在软间隔的 $SVM$ 中，我们使用变量 $\xi_n$ 来记录每一个数据点距离间隔边界（不是间隔，是间隔边界）的大小 $margin$ - $violation$ 。并且在目标函数中对所有的 $margin$ - $violation$ 做出惩罚，使其和最小化。

m i n w, b s . t . 1 2 w T w + C \sum n = 1 N ξ n y n (w T x n + b) \geq 1 - ξ n ξ n \geq 0 (1421) (1422) (1423)

$\begin{align} \mathop {min} \limits_{w, b} \quad & \frac12w^Tw+ C\sum_{n=1}^{N} \xi_n \\ s.t. \quad & y_n(w^Tx_n + b ) \ge 1 - \xi_n \\ & \xi_n \ge 0 \end{align}$

对于任意一条分隔边界 $w, b$ ，我们考虑一下 $\xi$ 是怎么计算出来的：

如果某一个点 $(x_n.y_n)$ 被划分错误，即 $y_n(w^Tx_n + b ) < 1$ ，此时 $\xi_n$ 可以记录下这个点不满足条件的程度。 $margin\ violation$ 为 $\xi_n = 1 - y_n(w^Tx_n + b ) > 0$ ；
如果某一个点 $(x_n, y_n)$ 划分正确，即 $y_n(w^Tx_n + b ) \ge 1$ ，那么 $\xi_n = 0$ 。

所以对于任意的 $w, b$ ，某一个点 $(x_n, y_n)$ 的 $\xi_n$ 的计算公式简化如下：

ξ n = m a x (1 - y n (w T x n + b), 0)

$\xi_n = max(1 - y_n(w^Tx_n + b), \ 0)$

即，如果 $(x_n. y_n)$ 符合约束， $max$ 中的前一项小于0，结果为0；如果该点不符合约束， $max$ 中的前一项大于0，这样就记录了违反的大小。

所以我们的 $soft\ margin\ SVM$ 可以写成下面的无约束形式：

m i n w, b 1 2 w T w + C \sum n = 1 N m a x (1 - y n (w T x n + b), 0)

$\mathop {min} \limits_{w, b} \frac12w^Tw + C\sum_{n=1}^{N}max(1 - y_n(w^Tx_n + b), \ 0)$

对于上面的这种形式，只需要调 $w$ ， $b$ 的值使得总体最小化就好了

发现上面的式子似曾相识，上面的式子可以简单的写成：

m i n 1 2 w T w + C \sum e r r

$min \quad \frac12w^Tw + C\sum err$

其中的 $\frac12w^Tw$ 可以看做是 $regularizer$ ，所以 $soft\ margin\ SVM$ 可以看成是一种加了 $regularizer$ 的最优化问题，但是这个问题有两个缺陷：

首先这不是一个二次规划问题，所以没有办法使用核技巧。
$max(\centerdot, 0)$ 不是可微分的，所以很难去求解。

所以并没有从这个角度出发去讲解 $soft\ margin\ SVM$ ，而是一步一步的从 $hard\ margin\ SVM$ 演化过来。

1.3 - 比较两个问题

之前我们提到过， $hard\ margin\ SVM$ 和 $regularization$ 是很相似的。 $regularization$ 中最小化 $E_{in}$ 的同时在 $w$ 上添加条件； $SVM$ 在 $E_{in}$ 上添加更严格的条件同时最小化 $w$ 。如表格中的前两行所示。

L2 regularization：

\frac{λ}{N} w^{T} w + E_{i n}

$\frac{\lambda}{N}w^Tw + E_{in}$

soft-margin SVM:
$1 2 w T w + C E i n$ $\frac12w^Tw + CE_{in}$

$SVM$ 中的 $large\ margin$ 可以看做是 $L2\ \ regularization$ 的一种实现。因为有 $large\ margin$ 的要求，所以会限制 $hyperplanes$ 的个数，这可以理解为一种 $regularizer$ 。

在最初的 $regularization$ 问题中：我们想要最小化 $E_{in}$ ，但是不想过分的最小化 $E_{in}$ ，所以添加了一个限制条件 $w^Tw \le$ $C$ 。在 $soft\ margin\ SVM$ 中，也有一个参数 $C$ ，用来决定惩罚的力度有多大。在 $L2\ regularization$ 问题中有一个参数 $\lambda$ ， $C$ 和 $C$ 的作用相同，其值越大，对应于 $\lambda$ 的值越小，此时表明只是想要一点点的正则化； $C$ 和 $C$ 值越小，对应于 $\lambda$ 的值越大，表明想要更多的正则化。

2 - SVM versus Logistic Regression

2.1 - 损失函数

上一小节中将 $soft\ margin\ SVM$ 写成了另一种形式，在这种形式里面 $soft\ margin\ SVM$ 是要最小化两项的和，其中的一项是 $\sum err$ 。其中的 $err=max(1-y\times分数, \ \ 0)$ 。
我们现在来比较下这个 $err$ 和我们在二元分类中关心的 $err_{0/1}$ 有什么关系。

$s = w^Tz_n +b$

$err_{0/1}(s, y) = |[ys \le 0]|$
$err_{svm}(s, y) = max(1 - ys, 0)$ 是 $err_{0/1}$ 的上界

将上述的两个 $err$ 函数分别画在下图中， $err_{0/1}$ 是比较容易画出来的：当 $y$ 和分数 $s$ 同号的时候 $err$ 为 $0$ ，当 $y$ 和分数 $s$ 不同号的时候 $err$ 为 $1$ ；对于 $err_{svm}$ 分成两个部分画：有 $violation$ 的时候，即 $y*s < 1$ ，这个时候 $err$ 的值为 $1 - y*s$ ；没有 $violation$ 的时候，即 $y*s \ge 1$ ， $error$ 的值为 $0$ 。

可以看出来 $err_{svm}$ 是 $err_{0/1}$ 的上限。如果我们有一个 $err_{0/1}$ 的上限，我们可以使用这个上限来推导一些算法来间接的把 $err_{0/1}$ 做好。所以可以把 $soft\ margin\ SVM$ 看做是在间接的把 $err_{0/1}$ 做好。 $err_{svm}$ 被称为是 $hinge\ error\ measure$ （合页损失）。

将 $logistics\ error$ 也画在图中可以得到：

$err_{sce}(s, y) = log_2(1 + exp(-ys))$

可以从图中看出来， $logistic\ error$ 和 $hinge\ error$ 有点相似。

$-\infty$	$\longleftarrow$	$ys$	$\longrightarrow$	$+\infty$
$\approx-ys$		$err_{svm}(s, y)$		= 0
$\approx-ys$		$(ln2)err_{sce}(s,y)$		= 0

通过上面的分析得到 $logistic\ error$ 和 $hinge\ error$ 非常的相似，那么 $soft\ margin\ SVM$ 就有点像是在做带有 $L2\ regularized$ 的 $logistic\ regression$ 。即：

$L2\ regularized\ logistic\ regression \approx soft\ margin\ SVM$

因为一方面在最佳化的目标函数中存在由于 $SVM$ 自身要求的 $large\ margin$ 而对 $w$ 的长度做限制的项（ $\frac12w^Tw$ ），另一方面 $SVM$ 使用的 $hinge\ error$ 和逻辑斯蒂回归使用的 $err$ 又非常的接近。

2.2 - Linear Model for Binary Classification

现在我们有了更多的可以用来做 $binary\ classification$ 的 $linear\ model$ 。

$PLA$ 算法
$PLA$ 算法直接最小化 $err_{0/1}$ ，但是只能用于线性可分的情形，如果不是线性可分的数据，需要使用 $Pocket$ 算法。
$Regularized\ Logistic\ Regression\ for\ Classification$ 算法
正则化的逻辑斯蒂回归：使用 $GD$ 算法/ $SGD$ 算法最小化加了规则化因子的 errsce
- 优点是容易做最优化，并且可以通过加 $regularizer$ 来控制模型的复杂度；
- 缺点是只是在优化 $err_{0/1}$ 的一个上限；
$soft\ margin\ SVM$ 算法
使用 quadratic programming 算法来最小化加了规则化因子的 errsvm
- 优点是容易做最优化，因为 $SVM$ 是从 $large\ margin$ 出发的，所以在模型的复杂度上有一定的保证；
- 缺点是同样也是在最佳化 $err_{0/1}$ 的上限；

所以我们可以认为 $regularized\ logistic\ regression$ 几乎就是在做 $soft\ margin\ SVM$ 。如果已经解决了一个 $regularized\ logistic\ regression$ ，就几乎是求解了一个 $soft\ margin\ SVM$ 的问题。
我们想要问的是：如果我们解决了一个 $soft\ margin\ SVM$ 的问题，我们是否可以将这个解用在 $logistic\ regression$ 里面呢？ $logistic\ regression$ 想要给出的一个属于 $(0, 1)$ 值之间的概率值。

小结：如果求解了一个 $regularized\ logistic\ regression$ 问题，我们可以说我们几乎得到了一个 $SVM$ 的解；那如果我们解决了一个 $SVM$ 是不是也可以说得到了 $regularized\ logistic\ regression$ 的解，也能够给出一个样本属于正例的概率呢？

3 - SVM for Soft Binary Classification

如何将 $SVM$ 用在 $soft\ binary\ classification$ 上呢？也就是说，不再仅仅是想让 $SVM$ 只是输出一个类别，而是输出属于某一个类别的概率。

思路1：既然 $SVM$ 和 $logistics\ regression$ 这么像，不如我们就将 $soft\ margin\ SVM$ 的解 $(w_{svm}, b_{svm})$ 当做是 $logistics\ regression$ 的近似解。
1. 使用 $SVM$ 算法得到 $(w_{svm}, b_{svm})$ ；
2. 将 $SVM$ 的解当成是 $logistics\ regression$ 的近似解。返回 $soft\ classifier$ 分类器 $g(x) = \theta(w^T_{svm}x+b_{svm})$ ；
直接使用了 $SVM$ 和 $logistics\ regression$ 的相似性，这样的方法通常表现的还不错，但是在这个方法中几乎没有了 $logistics\ regression$ 的特点，例如 $maximum\ likelihood$ ；
思路2：如果我们想要保留 $logistics\ regression$ 的特点的话，比如保留极大似然概率这样的学习的规则。我们可能的一个做法是：将 $SVM$ 的结果作为 $logistics\ regression$ 的 $GD$ 算法或者是 $SGD$ 算法的初始值。这样可能会比较快的得到 $logistics\ regression$ 的结果。
1. 使用 $SVM$ 算法得到 $(w_{svm}, b_{svm})$ ；
2. 将 $(w_{svm}, b_{svm})$ 作为 $gradient\ descent$ 或者是 $stochastic\ gradient\ descent$ 的初始值 $w_0$ ；
3. 返回分类器： $g(x) = \theta(w^Tx+b)$ ；
问题是这样做的结果和直接使用 $logistics\ regression$ 得到的结果几乎是没有什么差别的。这样的方法又缺失了 $SVM$ 算法的特点，比如 $non\ linear$ 的 $kernel\ SVM$ 技巧在这个方法中其实起不到很大的作用。

3.1 - Platt’s Model

为了融合 $SVM$ 和 $logistic\ regression$ 各自的特点。我们提出了如下的模型：
Two Level Learning

g (x) = θ (A \cdot (w T s v m Φ (x) + b s v m) + B)

$g(x) = \theta(A\centerdot (w^T_{svm} \Phi(x) + b_{svm}) + B)$

对通过 $SVM$ 算法得到的分数 $w^T_{svm} \Phi(x) + b_{svm}$ ，使用两个参数 $A$ 和 $B$ 分别进行放缩和平移，使用 $logistic\ regression$ 对这两个参数进行训练，以满足 $maximum\ likelihood$ 的需求。
因为内层使用的是 $SVM$ ，所以任何 $SVM$ 中的 $dual$ ， $kernel$ 都是可以使用的。

SVM flavor：找出超平面的法向量 $w_{svm}$
LogReg flavor：fine-tune hyperplane to match maximum likelihood by scaling( $A$ ) and shifting( $B$ )。即通过缩放和平移微调超平面，使得似然函数极大。

通常 $A > 0$ 并且 $B \approx 0$ ，如果 $SVM$ 的效果好的话。

LogReg on SVM-transformed data

m i n A, B 1 N \sum n = 1 N l o g (1 + e x p (- y n (A \cdot (w T s v m Φ (x) + b s v m                    Φ s v m (x n)) + B)))

$\mathop{min}\limits_{A, B} \frac1N\sum_{n=1}^{N}log \Bigg( 1 + exp\bigg( -y_n\big( A\centerdot(\underbrace{w^T_{svm}\Phi(x) + b_{svm}}_{\Phi_{svm}(x_n)}) + B\big)\bigg)\Bigg)$

通过分析可以认为 $w^T_{svm}\Phi(x) + b_{svm}$ 是通过 $SVM$ 算法给出的一个特别的特征转换，我们称之为 $\Phi_{svm}(x_n)$ ，这个特别的转换将输入空间的特征从多维转换到了一维。那么在下一步使用 $logistic\ regression$ 的时候，其实我们面对的是一个一维空间中的最优化问题，这个最优化的问题有两个需要优化的变量只有两个 $A, B$ 。所以总结该方法分为两个阶段：第一个阶段做 $SVM$ ，将 $SVM$ 当做是一个转换。第二个阶段做一个简单的 $logReg$ 问题。（融合 $SVM$ 的逻辑斯蒂回归模型）

$Probabilistic\ SVM$
$Platt's\ Model\ Probabilistic\ SVM\ for\ Soft\ Binary\ Classification$

在数据 $D$ 上运行 $SVM$ 得到 $(b_{svm}, w_{svm})$ (或者是等价的 $\alpha$ )，此时也就得到了一个转化 $z' = w^T_{svm}\Phi(x) + b_{svm}$ 。并且这个转换是从多维到一维的。
在新的数据集 $\{(z_n', y_n)\}$ 上运行 $LogReg$ 得到 $A, B$
得到分类器： $g(x) = \theta(A \centerdot(w^T_{svm}\Phi(x) + b_{svm}) + B)$

使用对偶的带有 $kernel$ 的方式求解得到的模型的最终的长相：

θ(A∑SV ynαnK(xn,x)+Ab+B) θ ( A ∑ S V y n α n K ( x n , x ) + A b + B ) $\theta \bigg(A\sum_{SV}\ y_n\alpha_nK(x_n, x) + Ab + B\bigg)$

现在我们就从 $SVM$ ，特别是 $Kernel\ SVM$ 得到了 $Logistic\ Regression$ 在 $Z$ 空间中的 $approx\ solution$ 。

3.2 - 小结

我们通过带有 $kernel$ 的 $SVM$ 得到了 $logistic\ regression$ 在 $Z$ 空间中的 $approx\ solution$ ，但是并没有真的在 $Z$ 空间中求解 $logistic\ regression$ ，而是利用了 $SVM$ 和 $logistic\ regression$ 的相似性，使用 $kernel\ SVM$ 在 $Z$ 空间中求解，然后再使用 $A$ 和 $B$ 来微调，这样来得到在 $Z$ 空间中可能的 $logistic\ regression$ 还不错的解。但是这还不是在 $Z$ 空间中 $logistic\ regression$ 最好的解。如果想要在 $Z$ 空间中找到 $logistic\ regression$ 的最好的解，该怎么做呢？下一节会给出答案。

4 - Kernel Logistic Regression

上一小节上中我们提到说想要在 $Z$ 空间中做 $logistic\ regression$ ，而不只是想要上一小节中得到的近似解。
首先想一下 $SVM$ 是怎么能够在 $Z$ 空间中寻找超平面的，首先 $SVM$ 是一个二次规划问题，可以将原问题转换为对偶问题，并且发现对偶问题只需要计算 $Z$ 空间中的內积，这时就可以引入 $Kernel$ 来进行计算。从而能在 $Z$ 空间中找到一个分隔超平面。
简单的来说， $kernel\ trick$ 就是将 $Z$ 空间的內积运算换成可以在 $X$ 空间中轻易计算的內积的函数。在原来的 $SVM$ 中主要有两个地方会用到 $kernel\ trick$ ：第一个是在训练的过程中需要 $Z$ 空间中的內积运算；第二个是在预测的过程中，即需要 $w$ 和 $z$ 的內积。只有在 $w$ 可以表示为所有的 $z$ （这些 $z$ 是原始在 $X$ 空间中的数据通过特征转换得到的）的线性组合的情况下，这样才能把在预测过程中计算 $w$ 和 $z$ （新的样本）的內积的过程表示成 $kernel$ 的形式。例如在 $SVM$ 中，在预测过程中需要计算 $w$ 和 $z$ 的內积，而 $w = \sum \beta_n z_n$ ，所以 $w^Tz = \sum \beta_n z_n^T z = \sum \beta_nK(x_n, x)$ 。

最佳的 $w$ 是 $z$ 的线性组合是我们能够使用 $kernel$ 的关键。也就是说如果最佳的 $w$ 可以被 $z$ 表达出来，那么我们就可以使用 $kernel$ 。那么问题来了，什么时候 $w$ 可以被 $z$ 表达出来呢？

4.1 - Represent Theorem

对于任何 $L2$ - $regularized$ 的线性模型，也就是说目标函数中存在 $w$ 的平方：

$\underset{w}{m i n} \frac{λ}{N} w^{T} w + \frac{1}{N} \sum_{n = 1}^{N} e r r (y_{n} w^{T} z_{n})$ $\mathop{min}\limits_{w}\quad \frac{\lambda}{N}w^Tw + \frac1N\sum_{n=1}^{N}err(y_nw^Tz_n)$
那么最好的 $w$ 可以表示为 $z$ 的线性组合：

$w * = \sum n = 1 N β n z n$ $w_* = \sum_{n=1}^N \beta_nz_n$

证明：假设我们有最佳的解 $w_*$ ，这个向量可以分成两个部分 $w_* = w_{||} + w_{\perp}$ ，其中 $w_{||}$ 表示可以使用 $z_n$ 表示出来的； $w_{\perp}$ 表示不可以被 $z_n$ 标示出来的。即 $w_{||} \in span(z_n), w_{\perp} \perp span(z_n)$ 。所以如果 $w_*$ 可以被 $z$ 表示出来的话，应该有的是 $w_{\perp} = 0$ 。

我们考虑如果 $w_{\perp} \ne 0$ 会发生什么呢？

首先我们可以得到的是： $err(y_n, w_*^Tz_n) = err(y_n, (w_{||}+w_{\perp})^Tz_n) = err(y_n, w_{||})^Tz_n$
其次考虑另一个部分， $w^T_*w_* = (w_{||}+w_{\perp})^T(w_{||}+w_{\perp}) = w_{||}^Tw_{||}+2w_{||}^Tw_{\perp}+w_{\perp}^Tw_{\perp} = w_{||}^Tw_{||}+w_{\perp}^Tw_{\perp} >w_{||}^Tw_{||}$ 。因为我们假设 $w_{\perp} \ne 0$ ，所以上面的大于号是成立的。

之前说 $w_*$ 是最佳解，但是现在发现，如果 $w_{\perp}\ne0$ ，那么 $w_{||}$ 将是更好的解，这和前提 $w_*$ 是最佳解矛盾，所以 $w_{\perp}$ 必须等于 $0$ 。（为什么 $w_{||}$ 是比 $w_{*}$ 更好的解呢？因为对于目标函数中的想要最小化的两项来说， $w_{||}$ 和 $w_{*}$ 在第二项的值相同，第一项的值 $w_{*}$ 小于 $w_{*}$ ）

所以我们能够得出结论，只要是在解决 $L2$ - $regularized$ 的线性问题，问题的最优解 $w$ 就可以被 $z$ 表示，这样我们就可以使用 $kernel$ 函数。任何的 $L2$ - $regularized$ 的方法都可以被 $kernelized$ 。

所以现在我们就利用这个很厉害的结果将 $kernel$ 用在 $L2$ - $regularized\ logistic\ regression$ 上面。

$L2$ - $regularized\ logistic\ regression$ 问题如下：

$m i n w λ N w T w + 1 N \sum n = 1 N l o g (1 + e x p (- y n w T x n))$ $\mathop{min}\limits_{w} \quad \frac{\lambda}{N}w^Tw + \frac1N\sum_{n=1}^{N}log\bigg(1 + exp(-y_nw^Tx_n)\bigg)$

根据上面证明的 $Represent\ Theorem$ ，我们已经知道，这个问题最佳的解的长相是 $w_{*} = \sum_{n=1}^{N}\beta_nz_n$ 。所以我们可把这个最佳的解带进去，不去求 $w$ ，而是去求 $\beta$ ，得到如下的问题：

m i n β λ N \sum n = 1 N \sum m = 1 N β n β m z T n z m + 1 N \sum n = 1 N l o g (1 + e x p (- y n \sum n = 1 N β m z T m z n))

$\mathop{min}\limits_{\beta} \quad \frac{\lambda}{N}\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mz_n^Tz_m + \frac1N\sum_{n=1}^{N}log\bigg(1 + exp(-y_n\sum_{n=1}^{N}\beta_mz_m^Tz_n)\bigg)$
使用核函数取代里面出现的

Z Z $Z$ 空间中的內积可以得到：

Kernel Logistic Regression

\underset{β}{m i n} \frac{λ}{N} \sum_{n = 1}^{N} \sum_{m = 1}^{N} β_{n} β_{m} K (x_{m}, x_{n}) + \frac{1}{N} \sum_{n = 1}^{N} l o g (1 + e x p (- y_{n} \sum_{n = 1}^{N} β_{m} K (x_{m}, x_{n})))

$\mathop{min}\limits_{\beta} \quad \frac{\lambda}{N}\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mK(x_m, x_n) + \frac1N\sum_{n=1}^{N}log\bigg(1 + exp(-y_n\sum_{n=1}^{N}\beta_mK(x_m, x_n))\bigg)$

现在问题变为求解 $\beta$ 而不是 $w$ 。变量的个数为 $N$ ，跟 $Z$ 空间的长度没有关系。因为这是一个无条件的最优化问题，所以可以使用 $GD/SGD$ 算法来进行求解。

4.2 - 从另一个角度来理解KLR

KLR： kernel logistic regression

Kernel Logistic Regression

m i n β λ N \sum n = 1 N \sum m = 1 N β n β m K (x m, x n) + 1 N \sum n = 1 N l o g (1 + e x p (- y n \sum n = 1 N β m K (x m, x n)))

$\mathop{min}\limits_{\beta} \quad \frac{\lambda}{N}\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mK(x_m, x_n) + \frac1N\sum_{n=1}^{N}log\bigg(1 + exp(-y_n\sum_{n=1}^{N}\beta_mK(x_m, x_n))\bigg)$

$\sum_{n=1}^{N}\beta_mK(x_m, x_n)$ ：可以看成是 $K$ 和 $\beta$ 內积的结果。可以把核函数 $K$ 想象成一个转换，求 $x_n$ 和其他的所有的点的相似性， $\beta$ 以一定的权重组合这些相似性。
$\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mK(x_m, x_n)$ ：可以看做是一个特殊的 $regularized$ ： $\beta^TK\beta$

所以 $KLR$ 可以看做是 $\beta$ 的线性模型，在这里 $\beta$ 相当于权重因子，这些权重因子组合了经过 $Kernel$ 的转换，并且使用了一个特别的 $kernel\ regularized$ 。

$KLR$ 和 $SVM$ 最大的不同之处是： $KLR$ 大部分的 $\beta_n$ 不是 $0$ 。而在 $SVM$ 中大部分的 $\alpha_n$ 是 $0$ 。

5 - 总结

本篇首先将 $soft\ margin\ SVM$ 解释成一个和 $regularization$ 有关的模型，说明了 $soft\ margin\ SVM$ 其实就是在做一个 $L2\ regularization$ ，并且与其相对应的 $error$ 是 $hinge\ error$ 。随后证明了 $soft\ margin\ SVM$ 其实几乎就是 $L2\ regularized\ logistic\ regression$ 。所以如果我们已经解决了一个 $SVM$ 问题，可以通过第二阶段的训练将其变成一个 $soft\ binary\ classification$ 的模型。通过 $Represent\ Theorem$ 可以解一个在 Z <script type="math/tex" id="MathJax-Element-4196">Z</script>空间中的逻辑斯蒂回归问题，但是它的解不是稀疏的。

土肥宅娘口三三

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
机器学习笔记-Kernel Logistic Regression

Kernel Logistic Regression本篇要介绍的是将Logistic Regression和Kernel函数结合在一起的应用。即我们要讨论的是：如果想要把KernelKernel的技巧使用在logistic Regressionlogistic\ Regression上，我们应该怎么做？Soft-Margin SVM as Regularized Model回顾
复制链接

扫一扫