(斯坦福机器学习笔记)支持向量机之核方法

最新推荐文章于 2021-03-16 16:38:02 发布

万德1010

最新推荐文章于 2021-03-16 16:38:02 发布

阅读量479

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_32231743/article/details/54844806

版权

机器学习专栏收录该内容

24 篇文章 4 订阅

订阅专栏

本文介绍了支持向量机中如何通过核方法解决线性不可分问题，详细阐述了核方法的工作原理，包括如何在不增加额外计算资源的情况下，将低维数据映射到高维空间，并列举了常见的核函数类型，如高斯核、多项式核等。

摘要由CSDN通过智能技术生成

对于线性不可分的数据，从低维度映射到高维度空间，有可能变为线性可分，如：

这里写图片描述
上图红点和蓝点是线性不可分的，我们将四个点执行(x,y)->(x*x,y*y,1.414*x*y)映射，该数据变为线性可分，如下图：

代码如下(python3.x):

import matplotlib.pyplot as plt
#import numpy as np
from mpl_toolkits.mplot3d import Axes3D

p1 = [1,1]
p2 = [7,1]
p3 = [4,-2]
p4 = [4,4]

plt.figure(1)
plt.plot([p1[0],p2[0]],[p1[1],p2[1]],'ro')
plt.plot([p3[0],p4[0]],[p3[1],p4[1]],'bo')
plt.xlim(-3, 8)
plt.ylim(-3, 8)
plt.xlabel('x')
plt.ylabel('y')


fig=plt.figure(2)
ax = Axes3D(fig)
t_p1 = [p1[0]**2,p1[1]**2,1.414*p1[0]*p1[1]]
t_p2 = [p2[0]**2,p2[1]**2,1.414*p2[0]*p2[1]]
t_p3 = [p3[0]**2,p3[1]**2,1.414*p3[0]*p3[1]]
t_p4 = [p4[0]**2,p4[1]**2,1.414*p4[0]*p4[1]]
ax.scatter([t_p1[0],t_p2[0]],[t_p1[1],t_p2[1]],[t_p1[2],t_p2[2]],s=40,c='r')
ax.scatter([t_p3[0],t_p4[0]],[t_p3[1],t_p4[1]],[t_p3[2],t_p4[2]],s=40,c='b',)
ax.set_zlabel('Z')
ax.set_ylabel('Y')
ax.set_xlabel('X')
plt.show()

==================================================================
因此我们可以通过将低维度数据映射到高维度空间的方法，提升数据的线性的可分离度。然而该方法需要消耗大量的计算资源。
有没有不额外消耗计算资源，又能够将低维度数据映射到高维度空间的方法呢？有的。
令 <x,z> <script type="math/tex" id="MathJax-Element-8652"> </script>表示x和z的内积，即 <x,z>=x1∗z1+x2∗z2+x3∗z3 ... <script type="math/tex" id="MathJax-Element-8653"> = x_1*z_1+x_2*z_2+x_3*z_3 \ \ \ ...</script>
假如计算过程中数据仅以 <x,z> <script type="math/tex" id="MathJax-Element-8654"> </script>的形式出现，而不是单独出现，则可以通过将计算过程中的 <script type="math/tex" id="MathJax-Element-8655"> </script>替换成 $k(x,z)$ 来实现映射，如 $k(x,z)=<x,z>^2$ ，其中 $k(x,z)$ 是核函数。

现在有两个问题，一个是为什么替换之后可以实现将低维度数据映射到高维度空间？二是为什么不会额外增加计算资源？
例如数据是3维度的，即 <x,z>=x1∗z1+x2∗z2+x3∗z3 <script type="math/tex" id="MathJax-Element-8659"> = x_1*z_1+x_2*z_2+x_3*z_3 </script>
那么 <x,z>2=(x1∗z1+x2∗z2+x3∗z3)2=((x1z1)2+(x2z2)2+(x3z3)2+2x1z1x2z2+2x1z1x3z3+2x2z2x3z3)=<X,Z> <script type="math/tex" id="MathJax-Element-8660"> ^2=(x_1*z_1+x_2*z_2+x_3*z_3 )^2=((x_1z_1)^2+(x_2z_2)^2+(x_3z_3)^2+2x_1z_1x_2z_2+2x_1z_1x_3z_3+2x_2z_2x_3z_3)= </script>
其中 <script type="math/tex" id="MathJax-Element-8661"> </script>中的 $X$ 和 $Z$ 都是6个维度，即 $X:(x_1^2,x_2^2,x_3^2,\sqrt2x_1x_2,\sqrt2x_1x_3,\sqrt2x_2x_3)$
也就是说，对于 $x:(x_1,x_2,x_3)$ , $z:(x_1,z_2,z_3)$ ，当我们将计算过程中的 <x,z> <script type="math/tex" id="MathJax-Element-8667"> </script>替换成 <script type="math/tex" id="MathJax-Element-8668"> ^2</script>，就相当于完成了数据的从3维度到6维度映射:从 $(x_1,x_2,x_3)$ 到 $(x_1^2,x_2^2,x_3^2,\sqrt2x_1x_2,\sqrt2x_1x_3,\sqrt2x_2x_3)$ 。到这里，第一个问题就解决了。
那为什么不额外增加计算量呢？因为我们本来就是要计算 <x,z> <script type="math/tex" id="MathJax-Element-8671"> </script>的。将计算结果平方，增加的步骤仅仅是平方这一步，省略了复杂的内积计算.对于计算机而言，计算一个浮点数的平方是很快的。

==================================================================
核方法是一个很巧妙的方法，巧就巧在不显著的增加计算量的情况下，能实现将低维度数据映射到高维度空间，提升数据的线性的可分离性。
常用的核函数有：
高斯核: $k(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2})$
多项式核: $k(x,z)=(ax^tz+c)^d$
指数核: $k(x,z)=exp(-\frac{||x-z||}{2\sigma^2})$
拉普拉斯核: $k(x,z)=exp(-\frac{||x-z||}{\sigma})$
Sigmoid核: $k(x,z)=tanh(ax^tz+c)$
ANOVA 核: $k(x,z)=exp(-\sigma(x^k-z^k)^2)^d$
等等