基于python使用sklearn通过线性支持向量机进行二维数据划分

一年前楼主还是在用java做数据分析,现在说一下用python做大致如何去做。

首先,python做数据有sklearn非常方便的包,集成了各种距离以及算法,这就意味着我们不需要花大笔的时间,使用tensorflow去创建模型和写算法了。对于使用python做数据的人来说,实在是方便了太多。这也导致了一个现象,就是使用python做数据,实现起来远比理解起来容易得多,可能内部的一些算法并不是理解的很透彻,只要知道大致知道对一个数据集,采用什么样的模型和算法,就可以调用相应的库函数。

原理什么的非常复杂,想要系统学习的建议去找详细的教程。这里主要以楼主的一个简单实现的范例,讲讲大致实现步骤,以供各位参考。

数据集以txt方式存储,格式大致如下:

7.108772    -0.986906  1
8.610639   2.046708   1
2.326297   0.265213   -1
3.634009   1.730537   -1
0.341367   -0.894998  -1

这是一个典型的二维数据集,划分成两类,以这种维度低划分少的数据集作为初学来说再合适不过了。

代码调用库如下:

from sklearn import svm
import numpy as np
from numpy import core
import matplotlib.pyplot as plt

第一步,获取数据集。

def loadDataSet(filename):
    dataMat = []; labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        print(lineArr)
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return np.array(dataMat), np.array(labelMat)

from numpy import core
data, target = loadDataSet("testSet.txt")
index1 = core.where(target == 1)
X1 = data[index1]
index2 = core.where(target == -1)
X2 = data[index2]

通过python基本操作我们可以读取到数据,并且把数据按照已知的类别分成X1,X2。

第二步,调用线性支持向量机

clf = svm.SVC(kernel='linear')
clf.fit(data, target)

第三步,获取w和斜率(w为划分线性方程wx+b=0的w)

w = clf.coef_[0]
a = -w[0] / w[1]

第四步,画出划分图

xx = np.linspace(0, 10)
yy = a * xx - (clf.intercept_[0]) / w[1]
b = clf.support_vectors_[0]
yy_down = a * xx + (b[1] - a * b[0])
b = clf.support_vectors_[-1]
yy_up = a * xx + (b[1] - a * b[0])
plt.figure(figsize=(8, 4))
plt.plot(xx, yy)
plt.plot(xx, yy_down)
plt.plot(xx, yy_up)
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80)
plt.scatter(data[:, 0], data[:, 1], c=target, cmap=plt.cm.Paired)  # [:,0]列切片,第0列
plt.axis('tight')
plt.show()

效果图如下:


注,圆圈圈出的点为支持向量。

至此,数据集划分也算是全部完成了。

最后说几句心里话吧,一直以来,楼主都秉承着轻技术理论讲解,重代码讲解的风格,主要还是因为个人觉得理论的话,系统的去看一下技术文档或者书籍效果要更好。大部分看csdn的人应该都是遇到了技术问题,想看看具体怎么解决的。基于这样一厢情愿的想法吧,楼主的文章里基本不讲解代码为什么这么写,而是直接讲代码思路和步骤。如果大家在看文章的时候有什么意见的话,也欢迎大家积极地提出来,楼主会在今后的文章里继续改进。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值