NLP实践四:SVM实现文本分类

SVM的简单理解(参考机器学习之SVM

线性分类

线性分类的目的就是将数据分开,如图:
在这里插入图片描述怎么确定最佳的分隔线?
在这里插入图片描述
从直观上来说,分割的间隙越大越好,把两个类别的点分得越开越好。
在SVM中,成为Maximum Marginal, 是svm的一个理论基础之一。
选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲, 就使的置信度最小的点置信度最大。
上图中被红色和蓝色的线圈出来的点就是所谓的支持向量(support vector)。
在这里插入图片描述
在这里插入图片描述
上图就是对间隙的一个描述。Classifier Boundary就是fx, 红蓝线就是support vertor 所在面。红色,蓝色线之间的间隙就是要最大化的分类间的间隙。
直接给出M的公式:
在这里插入图片描述
另外支持向量位于wx+b = 1和wx+b=-1的直线上。在前面乘上一个该点所属的类别(1或者-1), 就可以得到支持向量的表达式 y(wx+b) =1, 简单的将支持向量表示出来。
当确定支持向量后,分割函数也随之确定,两个问题等价。得到支持向量还有一个作用,让支持向量后面的那些点不参与计算。
在这里插入图片描述
省略一堆公式。
在这里插入图片描述

线性不可分

在这里插入图片描述
在这里插入图片描述
要得到这种情况下的分类器,有两种方式。
用图示曲线将其完全分开
另一种还是直线, 不用保证可分性, 包容分错。
针对第二种情况,假如惩罚函数,使的分错的情况越合理越好。可以为分错的点加上一点惩罚,对一个分错的点的惩罚函数就是这个点到其正确位置的距离:
在这里插入图片描述
上图中,蓝色,红色的直线分别为支持向量所在的边界,绿色的线为决策函数。紫色的线表示分错的点到其相应的决策面的距离,这样可以在原函数上加上一个惩罚函数(蓝色部分)
在这里插入图片描述

核函数

刚刚提到,可以使用非线性的方法来完美划分。让空间从原来的线性空间变成一个更高维的空间,在这个高维的线性空间下,在用一个超平面进行分割。
在这里插入图片描述
可以将上图的点映射到一个三维空间(z1, z2, z3),并对映射后的坐标旋转就可以得到一个线性可分的集。
在这里插入图片描述
在这里插入图片描述

代码实践(参考贝叶斯分类

将最后贝叶斯模型部分替换为

from sklearn.svm import SVC   
svclf = SVC(kernel = 'linear') 
svclf.fit(x_train,y_train)  
preds = svclf.predict(x_test);  
num = 0
preds = preds.tolist()
print(classification_report(y_test,preds))

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值