『MACHINE LEARNING』读书笔记|神经网络与支持向量机的联系

本文探讨了神经网络(NN)与支持向量机(SVM)在处理线性不可分数据集时的相似性和区别。通过图解原理,解释了NN如何通过非线性激活函数构造多维特征空间,而SVM利用核函数进行高维映射。文章指出,NN和SVM都是线性分类器,但通过不同的方式实现非线性分类,SVM依赖于核函数,而NN通过多层神经元层实现特征空间的弯曲。
摘要由CSDN通过智能技术生成

写在前面

本来的打算是,周志华的《机器学习》一周一章节,快速看完的,结果看书的过程中看着看着觉得这支持向量机和神经网络真的是有种难舍难分的感觉。就开始看各种博客,弄懂两者的关系,现在半知半解,写一篇文来整理一下脑内的垃圾场。

还有就是我在上一篇关于机器学习的blog里写的是关于感知机的粗浅认识,然后还说了一句“感知机的意义不大,只是我想看懂书上两条公式”之类的话,对NN与SVM了解之后,感知机就是NN和SVM的老祖宗啊,在此更正下。


疑惑的开端

不知道各位有没有看过用图片解释支持向量机(SVM)和神经网络(NN)原理的博客,看一些炫酷的图片or gif之后,的确大概的能够知道SVM和NN的原理,但是我也是从这些图开始对这两种学习器产生疑惑,觉得两者有很像,又不像,下面讲讲我的疑惑开始。

神经网络图解原理:

隐藏层的作用相当一个变形器,将原本的输入层中的网格进行变形,各个网格长与宽有的放大,有的缩小,最后使得两个本来线性不可分的数据集,在隐藏层的变形网格中达到可线性分类。隐藏层中的红蓝分界直线再映射回原来的网格中就是输出层的红蓝分界曲线,于是乎,在输出层看到的效果就是神经网络将两数据集用非线性的分界线分类了。
这里写图片描述

支持向量机图解原理:

将低维的线性不可分的数据集利用核函数映射到高维的空间去,在低维线性不可分的数据集在高维空间内就可以用超平面线性分割了。超平面的概念在SVM中很重要。

这里写图片描述
不知各位有没有对二者原理懂了一些,但又有种“嗯?这么厉害,到底怎么做到”感觉。一个学习器相当于弯曲曲面,一个相当于映射到高维空间,是什么造成的区别?如果你也有这些困惑,且继续看下文讲述。


插播一个SVM和NN的之间竞争的小故事,大概就是最开始因为SVM的清晰的理论支持与可解释性,较长的一段时间里SVM 是比NN流行的。后来因为BP算法,和后面的深度学习,尽管NN不可解释但却可以解决很多复杂问题,NN现在可以说是火到爆啊,什么样式的NN都有。(关于各种不同样式神经网络的总结,可以参考reference[3]文章《Neural Network Zoo》

svm方法有很强数学理论基础,svm的方法被大量的使用在图片识别,语音识别上,都取到了很好的效果。成为了90年代到现在较为流行的算法。90年代,在贝尔实验室里,Yann Lecun和 Vapnik 常常就 神经网络和 SVM 两种技术的优缺点,常常讨论得非常的深入,慢慢的形成了svm方法的支持者和神经网络的信徒。

Scholkopf是Vapnik的大弟子,支持向量机与核方法研究的领军人物。据Scholkopf说,Vapnik当初发明支持向量机就是想’干掉’神经网络(He wanted to kill Neural Network)。支持向量机确实很有效,一段时间支持向量机一派占了上风。

很多人都认为svm是两成的神经网络。近年来,神经网络一派的大师Hinton又提出了神经网络的Deep Learning算法,使神经网络的能力大大提高,可与支持向量机一比。Deep Learning假设神经网络是多层的,首先用Restricted Boltzmann Machine学习网络的结构,然后再通过Back Propagation学习网络的权值。关于Deep Learning的命名,Hinton曾开玩笑地说: I want to call SVM shallow learning. (注:shallow 有肤浅的意思)。其实Deep Learning本身的意思是深层学习,因为它假设神经网络有多层。来源


不知道取个什么题目好

通俗的来说,SVM和神经网络做分类都希望数据集线性可分(linearly seperable),俗话称一刀切,就像是我们在感知机模型里见到的那样,如下图:

这里写图片描述

但是现实哪有那么美好,就算是二分类的数据集在现实中都很多是线性不可分的,如下图,那么对于线性不可分的结果应该怎么办呢?

下面这页ppt介绍了四种方法~来源

这里写图片描述

但是,我觉得其实第2,3种方法都可以归入第4种方法中。接下来,我们举一些例子,来解释方法二,三,四的意思。

方法二说,对于一个线性不可分的数据集的特征进行转换,使得其线性可分。

方法二例子一「EXAMPLE 2.1」

一个简单的例子,如下图左图的这个数据集,图为数据集在其二维的特征空间 x1,x2 的分布,是用两个抛物线平移加上少量噪音得到。

这里写图片描述

a1x1+a2x2=0 来对其线性分割显然不可能。在这个特殊情况下,我们可以构造另一个平移得到的抛物线来作为分类分界线,形如

a1
  • 11
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值