svm简记

        线性可分,通常讨论svm的材料这个时候都会给我们展示一张图,坐标系里有两堆数据,我们有很多种方案可以将他们分开,我们需要在这很多种方案中选一条出来(这个地方需要说明一下 这个时候在算法层面还是什么都没干的,这一块是纯粹的数学推导),

        首先保证所有点都满足  yi(WtX+b)≥1(y属于(-1,1)) 其实这个时候有很多条线(超平面)满足条件,我们要求所有满足条件线中间隔最的那条  也就是 max 2/||w||,具体求法拉格朗日乘子法 这块具体求法虽然很精髓但是与具体工作无关我们再次不在搬运相关手推.这样的话我们要的w 和 b 就求出来了(算法直接以推导结果进行实现).

        但是以上只是理想情况,工程中几乎所有数据都不满足线性可分的要求,这个时候我们可以允许一部分数据不满足上文标出的红色条件,在损失函数中加入C约束不满足条件的数据个数,也就是C与违规部分的乘积越小越好,也就是说C越大,允许犯错的机会越小,这个时候分类器的容忍力越差,自然越容易造成过拟合,相反容易造成欠拟合.注意这里的C为超参数

        以上就是线性svm,但是这样的处理依然不理想,如果数据的分布而某个维度上完全无法分割呢,这个时候我们要强行将所有数据往更高维度上扩展,通常我们借鉴我们在做线性回归时怎么将直线拉成曲线的做法(取特征的多项式组合) 这就是所谓的多项式核函数,这样做被称之为核技巧,核函数显然有很多种包括多项式核函数,高斯核函数,指数核函数,sigmoid核函数等,只不过我们通常情况下用高斯核函数,高斯核函数有一个超参数gama 这个gama就是高斯分布的1/方差,显然gama越大 高斯分布越瘦小,数据在更高纬度有更强的线性可分性,这样做的结果是svm几乎可以拟合任意一种组合,带来的后果时会造成过拟合,gama越小高斯分布越矮胖,可能造成在训练,集上都无法取得好的分类效果,在测试集上的效果自然无法保证,所以这个参数要好好调.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值