Week 7

最新推荐文章于 2020-04-05 22:01:26 发布

willerhe

最新推荐文章于 2020-04-05 22:01:26 发布

阅读量239

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_38744051/article/details/84942065

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Large Margin Classification

支持向量机，将逻辑回归的sigmoid函数换了
在这里插入图片描述

在这里插入图片描述
这里如果C=1/λ，则相当于正则化效果不变，相当于等式左右两边同除一个常量，并不该表对θ的最优结果影响。

大间距分类器

在这里插入图片描述

假设C设置为非常大的情况下，我们倾向于使得与C相乘的部分趋于0
在这里插入图片描述
大间距分类器背后的原理
向量内积的几何意义，相当于一个向量在另一个向量上投影的长度，乘以另一个向量的长度。

支持向量机为什么会产生大间距分类的效果，因为支持向量机的cost funciton的第一部分要求使得θ^TX这两个向量内积尽可能大，我们知道向量内机相当于一个向量在另一个向量上的投影与该向量相乘，因此要求θ和样本点x之间的夹角尽可能小，而θ是假设函数h_θ(x)的参数，与假设函数是垂直的，这就形成了最大间距分类的效果。（如下图所示）

在这里插入图片描述

疑问：这里普通的线性分类，同样也会希望θ^TX尽可能大，同样也会产生大间距分类效果，不同仅仅是把sigmoid函数换了下，还有把正则化参数lambda换成了C。可以理解的是如果C尽可能的大，那么主观上会倾向于更大的θ和更小的θ与X的夹角，但是C也不会是一味地增大，同时及时不考虑C，正则化参数只是减少了theta，但是还是倾向于θ与X的夹角要小，所以目前还没明白支持向量机的特性在哪。

Kernels

通过Kernels核函数，调整SVM以构造非线性分类器
在这里插入图片描述

高斯核函数
在这里插入图片描述
上图中，f也就是x和l的相似度计算了x与l的相似程度，如果x与l重合，则f=1，如果x与l相去甚远，则f趋于0

在这里插入图片描述
过程：随便选三个l点，假设θ已经计算出来了，如果给一个需要判断的测试样本x，根据x可以计算出其与l1,l2,l3的相似度，然后得到f1，f2,f3。然后根据θ^Tf是否大于零来判断输出值是否为1。

关于l的选取：
在这里插入图片描述
我们将所有训练集的点x选定为l。

在这里插入图片描述
最后，关于参数的选择问题：

SVMs in Practice

建议使用SVM软件包来求解参数θ(e.g. liblinear, libsvm,…)
需要做的：
1、选择C参数
2、选择kernel（similarity function）
如果没有使用核函数，也叫linear kernel，比如直接用y=1 if θ^Tx>=0;
或者选择高斯核函数：
Gaussian kernel
为了能同等的关注到不同的特征变量，如果特征变量之间度量差距很大，需要进行feature scaling，比如在预测房价的例子中，一个特征变量是面积，1000feet²，一个是卧室的数量，因为面积相对卧室数量的比值过大，会导致最优化时更多的考虑房屋面积，避免这种情况，可以将房屋的面积单位改为1千feet²类似这样的处理方法，将所有特征变量的取值控制在一个接近的范围内。

如果选择其他的核函数，需要该核函数满足默塞尔定理。

何时该使用SVM何时使用逻辑回归？
如果特征值数量很多（相对样本数量来说），比如n = 10000，而样本数量不多，m=10 …1000，那么这时通常使用逻辑回归，或者无核的SVM。因为样本数量不足时，没法拟合出很好的非线性函数。

如果特征值数量n比较小1-1000，而m 中等，如10-10000：使用SVM with Gaussian kernel。

如果n很小，而m很大（n=1-1000, m = 50000+）
这时使用高斯核函数会很比较慢，这时考虑手动创建更多的特征变量，然后尝试逻辑回归或者不带核函数的SVM

对于以上这些情况，神经网络通常也能做得很好，但是可能训练起来会比较慢。

此外，对于SVM不用担心局部最优问题。

willerhe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Week 7

Large Margin Classification支持向量机，将逻辑回归的sigmoid函数换了这里如果C=1/λ，则相当于正则化效果不变，相当于等式左右两边同除一个常量，并不该表对θ的最优结果影响。大间距分类器假设C设置为非常大的情况下，我们倾向于使得与C相乘的部分趋于0大间距分类器背后的原理向量内积的几何意义，相当于一个向量在另一个向量上投影的长度，乘以另一个向量的长度...
复制链接

扫一扫