核函数(Kernel function)

已知有一组向量,可用线性函数去探索其是否具有线性关系,若数据之间是非线性呢?

非线性数据是指只有利用非线性模型才能更好的预测。但非线性问题往往不好求解,所以希望用解线性分类问题的方法解决这个问题。所采取的方法是进行一个非线性变换,将非线性问题变换为线性问题,通过解变换后的线性问题的方法求解原来的非线性问题。原理是将数据映射到高维数据,在高维空间线性可分。如下图,从低维转换到高维,是转换函数。

                       但是有个问题,高维空间的数据计算存在困难。所以替代方案是在特征空间中计算相似度度量,而不是计算向量的坐标,然后应用只需要该度量值的算法。用点积(dot product)表示相似性度量。

1、核函数定义
将原始空间中的向量作为输入向量,并返回特征空间(转换后的数据空间,可能是高维)中向量的点积的函数称为核函数。

使用内核,不需要显式地将数据嵌入到空间中,因为许多算法只需要图像向量之间的内积(内积是标量);在特征空间不需要数据的坐标。

 

 

 

 

核函数方法的主要思想是活得一组观测数据,并将它们投影到另一空间,在这个空间中,点之间的比较是直接的。特征空间的位数可以是任意维,但可以在这个复杂的特征空间中使用简单的分类器,但要注意过拟合(特征过多会引起过拟合)。

3 构建核函数

3.1 线性核函数

 

该核函数的特征空间的维度是无限的。核函数避免了转换函数的计算,所以可以用相对马氏距离计算 的Gram 矩阵,即使已经隐式地将对象投射到无限维的特征空间中。

3.3 核函数类别
                                                                     核函数类别(x,y表示输入空间的向量)

 

4 核函数的应用
核函数是一种灵活表示数据样本的方法,这样就可以在复杂的空间中比较样本。核函数在比较中显示出了很大的实用价值。

不同大小的图片
不同长度的蛋白序列
3D结构对象
不同数量的边和节点的网络
不同长度和形式的样本文件
以上对象都有不同的数量和类型的特征。希望能够对数据样本进行聚类,以找出在这个复杂的高维空间中哪些对是邻居。核函数是一个任意函数,它允许将复杂空间中的对象映射到高维空间,从而能够以简单的方式比较这些复杂的特性。

若有一个样本空间和核函数定义的特征空间,则有助于:

比较:可以用于比较两个具有不同数量单词的文本。一个适当定义的内核为我们提供了一个度量标准,通过它可以量化两个对象之间的相似性
分类:尽管可以在特征空间中量化相似性,但简单的分类器在这个空间中也可能表现不佳。希望将数据投影到另一个空间,并在这个空间中对样本进行分类。
应用于:K近邻、支持向量机

5 核函数的优劣
劣势:

为给定的问题选择核函数可能很困难
对于大型数据集,可能无法存储整个核函数矩阵,可能需要重新计算核函数
优势:

核函数在某些特征空间通过点积的方式计算,但无需知道特征空间以及转换函数。这就是核函数的有用之处。
使在高维空间中以极低的计算成本寻找线性关系成为可能,这是因为在特征空间中输入图像的内积可以在原始空间中计算出来
不需要数据是真实的向量,可用于字符串、时序数据
————————————————
版权声明:本文为CSDN博主「我不爱机器学习」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/mengjizhiyou/article/details/103437423

  • 11
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值