本文使用weka中内置的三种分类算法(naive bayes,SVM,Logistic Regression)根据收集到的鸢尾属植物的数据进行分类,通过精度和效率对三种算法进行比较。
1、鸢尾属植物的分类
数据中包含鸢尾属植物的四种属性。四种属性分别是萼片长度、萼片宽度、花瓣长度、花瓣宽度。数据中还包含鸢尾属植物的三种种类,分别是:Iris-setosa(山鸢尾)、Iris-Versicolous(杂色鸢尾)、Iris-Virginica(维吉尼亚鸢尾)。也就是说,每行数据有5个属性(花萼长度、花萼宽度、花瓣长度、花瓣宽度、所属种类)
通过weka图形界面的Experimenter模块添加三种算法,采用十折交叉验证来分析三种算法的结果。图1.1是三种算法分类的正确率对比。
图1.1分类正确率
从图1.1的列表中可以看出,对于当前数据集的表现,三种算法在指定的显著性水平(significance level,这里设定是0.1)下可以认为正确率基本等同。
再比较三种算法正确分类个数的平均值,如图1.2所示,三种算法正确分类个数的平均值在显著性水平值为0.1的情况下可以认为是等同的。

图1.2分类正确