NLP实践四：SVM实现文本分类

最新推荐文章于 2024-05-06 23:25:12 发布

chen_yiwei

最新推荐文章于 2024-05-06 23:25:12 发布

阅读量1w

点赞数 4

分类专栏： NLP 文本分类

NLP 同时被 2 个专栏收录

16 篇文章 10 订阅

订阅专栏

文本分类

8 篇文章 1 订阅

订阅专栏

SVM的简单理解（参考机器学习之SVM）

线性分类

线性分类的目的就是将数据分开，如图：
在这里插入图片描述怎么确定最佳的分隔线？

从直观上来说，分割的间隙越大越好，把两个类别的点分得越开越好。
在SVM中，成为Maximum Marginal，是svm的一个理论基础之一。
选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲，就使的置信度最小的点置信度最大。
上图中被红色和蓝色的线圈出来的点就是所谓的支持向量(support vector)。
在这里插入图片描述

上图就是对间隙的一个描述。Classifier Boundary就是fx，红蓝线就是support vertor 所在面。红色，蓝色线之间的间隙就是要最大化的分类间的间隙。
直接给出M的公式：

另外支持向量位于wx+b = 1和wx+b=-1的直线上。在前面乘上一个该点所属的类别(1或者-1)，就可以得到支持向量的表达式 y(wx+b) =1，简单的将支持向量表示出来。
当确定支持向量后，分割函数也随之确定，两个问题等价。得到支持向量还有一个作用，让支持向量后面的那些点不参与计算。
在这里插入图片描述
省略一堆公式。

线性不可分

在这里插入图片描述

要得到这种情况下的分类器，有两种方式。
用图示曲线将其完全分开
另一种还是直线，不用保证可分性, 包容分错。
针对第二种情况，假如惩罚函数，使的分错的情况越合理越好。可以为分错的点加上一点惩罚，对一个分错的点的惩罚函数就是这个点到其正确位置的距离：
在这里插入图片描述
上图中，蓝色，红色的直线分别为支持向量所在的边界，绿色的线为决策函数。紫色的线表示分错的点到其相应的决策面的距离，这样可以在原函数上加上一个惩罚函数(蓝色部分)

核函数

刚刚提到，可以使用非线性的方法来完美划分。让空间从原来的线性空间变成一个更高维的空间，在这个高维的线性空间下，在用一个超平面进行分割。
在这里插入图片描述
可以将上图的点映射到一个三维空间（z1, z2, z3），并对映射后的坐标旋转就可以得到一个线性可分的集。

代码实践（参考贝叶斯分类）

将最后贝叶斯模型部分替换为

from sklearn.svm import SVC   
svclf = SVC(kernel = 'linear') 
svclf.fit(x_train,y_train)  
preds = svclf.predict(x_test);  
num = 0
preds = preds.tolist()
print(classification_report(y_test,preds))

chen_yiwei

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
NLP实践四：SVM实现文本分类

SVM的简单理解（参考机器学习之SVM）线性分类线性分类的目的就是将数据分开，如图：怎么确定最佳的分隔线？从直观上来说，分割的间隙越大越好，把两个类别的点分得越开越好。在SVM中，成为Maximum Marginal，是svm的一个理论基础之一。选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲，就使的置信度最小的点置信度最大。上图中被红色和蓝色的线圈出来的点就是所谓的支...
复制链接

扫一扫

专栏目录