对付非线性可分的数据集的一种通用办法

假设这个数据集能够被一个非线性的面分开,这个面的表达形式为f(x,y,z)。那么,根据泰勒展开,可以得到f(x,y,z)的多项式表达。那么,就可以把其多项式表达作为一个新的面,将多项式的各个次数的分量组成一个新的向量,就成了线性可分的。这样相当于将数据集做了个变换,将非线性的数据集变换成线性的数据集。

由此可以推出,在一定意义上来说,任何非线性的数据集通过某种变换后,都是线性可分的。

但是,如果经过泰勒展开以后,数据的维度会上升的很快,所以存储和计算速度都会增加很快。同时,因为参数增长的非常快,VC维度也会增加的很快,非常容易发生overfitting 。

因此,一个比较科学的做法是,从线性逼近开始尝试,然后一步步的测试复杂的逼近。

另外一个问题是过拟合的问题。过拟合跟两个东西有关:噪声和数据集大小。如果数据集小、而所选的模型的VC维度太高的话,就会发生过拟合现象。

下图说明了另外一个问题。即使我们的分类器是很高次数的多项式,但是在数据量有限的情况下也会出现过拟合现象。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值