分类算法
支持向量机(SVM)概论
支持向量机是有监督学习模型,用于二元分类问题。
在实际问题中,比如对于病人青光眼的研究,
以上就是青光眼三个最重要的特征,将他们抽象在XYZ轴中,如图,三维空间中,他们特征是很难单独分离开到不同的区域的。支持向量机就是解决类似的问题。
支持向量机原理
通过变换将低维转换为高维,在高维空间中去做分类(分割)。
在高维空间中的分割一定比在低维中要强,三维的分割区域一定比二维多一样。
问题的关键在于:维度转换+分界线确定。
分割实例
abc三条分割线只有b可以将不同的样本完全分开。ac不能全部分开泛化能力不强。
一般来说我们选择较强能力的分割线,有较为稳定的分类结果和较强的抗燥能力。
最优的分界线
虚线为支持向量、d是支持向量到分界线的距离,d越大越好。
支持向量机原理
- 分类超平面就是两个支持向量中间的分割平面。对于分类超平面的公式,(w,b)是两个向量或者矩阵的内积。公式中w、b都是未知数,x是数据集是已知参数,通过(w,x)+b=0可以得到无数的w和b,找出可以让margin最大的w和b。
- 判决函数:x是我们当时青光眼的三个特征,y是眼睛开角还是闭角的结果。
约束
为使所有的样本正确分类,要满足要求:
y
i
[
(
w
∗
x
i
)
+
b
]
>
=
1
i
=
1
,
2.....
,
l
y~i[(w*x~i)+b]>= 1\quad i = 1,2.....,l
y i[(w∗x i)+b]>=1i=1,2.....,l
在分类超平面上面的都是大于等于1的,线下面就是小于-1的。综合就是上面的式子。
优化
核函数
支持向量机的应用
新闻分类
linear数据集线性可分
人脸识别
线性不可分