机器学习——支持向量机

最新推荐文章于 2023-09-06 09:31:27 发布

蜡笔小楚

最新推荐文章于 2023-09-06 09:31:27 发布

阅读量173

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43492938/article/details/107890332

版权

优化目标

代价函数正则化的参数去掉，然后往总的求和加了C也并不影响什么，大致上和逻辑回归的代价函数一致。

假设函数从之前的概率值变成了非0即1的情况
与逻辑回归的不同

大间隔分类器的直观理解

它有更加严格的限值区间，之前的逻辑回归在z大于0的时候就会判定成1而现在只有在 z>1的时候才会判定成1。
SVM
我们假设一种C非常长大的情况：我们就会迫切的希望与C相乘的项足够的小，宁愿趋近于0：
SVM决策边界
从二维平面更加客观的理解是：黑色的分界线明显好于其他颜色的，而蓝色之间的间隔就是分类器的留出间隔。
C特别大的时候容易受异常点的影响，C较小时，可以在异常点的情况下实现良好的分类；
线性分类的最大间隔

大间隔分类器的数学原理

最小化在这里就是最小化theta的范数了，因为前面的项目已经使得它的代价等于0了![数学原理](https://img-blog.csdnimg.cn/20200809121121324.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNDkyOTM4,size_16,color_FFFFFF,t_70)

在左边图中，绿色为决策边界，对于每一个样本点，在theta向量上面计算投影，然后乘以theta的范数，但是为了让这个乘积足够小，就要增大theta，但是代价函数是要求theta足够小，相对于右图来说，就显得这个决策边界不是那么好了，因为对同样的一个样本点在右边的这个图中的投影更长，那么所对应的theta就更小，代价函数就会更小，所以更好，SVM也就不会选择右边那个分割平面。

kernel 核函数

在线性不可分的情况下，我们往往想到进行高次多项式的特征添加，如下图中所示的这样，但是这些是我们真的需要的吗？是否有更好的可以构造的特征供我们使用？

相似度函数：
相似度函数与核函数：下图所示的是相似的函数，或者说核函数的一种：高斯核函数
他表示了一个样本点跟已经标记好的点之间的相似程度。特征点离标记点近了，经过核函数就算就是1，远了就是0；与根据标记点的数量，会对每一样本特征产生新的标记点个数维的特征向量。
核函数——相似函数
样本点距离标记点的远近，最大为1
方差的不同会导致特征变量的变化速度的不同
特征变量减小的速度
经过核函数运算后，距离标记近的点的预测值将是1，距离标记点远的点预测值将是0，当标记点多起来就会构成决策边界。从而得到非线性边界。