浅谈核方法

本文介绍了核方法在机器学习中的应用,尤其是SVM中的核技巧和K-NN的局部性原理。通过改进K-NN算法,引入加权机制和高斯核函数,提高分类准确性。同时探讨了局部加权线性回归(LWLR),利用目标点附近样本的局部信息进行预测,降低对特征的依赖。核方法在处理非线性问题时展现出强大的能力。
摘要由CSDN通过智能技术生成

说到核方法(kernel method)或者核技巧(kernel trick),了解SVM的人一定不会陌生。当数据集线性不可分时,就要用到非线性分类器。SVM采取的做法是将数据映射到更高的维度,从而将数据集在高维空间转化成线性可分的,然后再用线性SVM去训练一个线性分类器。以上做法的实现方式就是通过核方法隐式地实现的。

从上面可以看出,核方法是隐式地在高维的特征空间来计算向量的内积。但是本文要讲的是核方法的另外一个作用,也就是它的局部性原理(localization)。对于一个目标点,有时候通过拟合全部的样本点来对其做预测会造成预测的偏差,往往在目标点附近的样本点更能反映目标点的真实情况,这里,我们很容易就能想到依靠局部信息(近邻)来进行分类的K-NN。

K-NN及其改进

我们首先来看看K-NN。当K-NN用于分类时,我们需要明确三点,第一,K的取值;第二,距离度量方式;第三,分类决策规则。关于K的选取,对应于模型的选择,我们可以通过交叉验证的方式来获得最优的K值;距离度量一般采取欧氏距离;分类决策规则一般采取的是多数表决。我们可以看出,K-NN算法是一个局部性的算法,它只依靠离目标数据点最近的K个数据点的信息来对目标数据点做出分类预测。当K值过大,模型会欠拟合,因为算法始终会选择训练数据集中样本最多的类别;如果K值过小,那么模型过拟合,因为算法只看到了局部的信息,试想如果数据有噪声,那么模型在这局部就会过拟合。因此,合理的K值选择是模型成功

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值