Weka数据挖掘——分类

定义:
分类就是得到一个函数或分类模型(即分类器),通过分类器将未知类别的数据对象映射到某个给定的类别。

1. 数据分类可以分为两步
第一步建立模型,通过分析由属性描述的数据集,来建立反映其特性的模型。该步骤也称为是有监督的学习,基于训练集而到处模型,训练集合是已知类别标签的数据对象。
第二步使用模型对数据对象inxing分类。首先评估对象分类的准确度或者其他指标,如果可以接受,才使用它来对未知类别标签的对象进行分类。
 

2. 预测的目的

预测的目的主要是从历史数据记录中自动推导出对给定数据的推广描述,从而能够对实现未知类别的数据进行预测。分类和回归是两类主要的预测问题,分类是预测离散的值,回归是预测连续值。
3.分类器的使用和输出
 
3.1  测试选项
  • 使用训练集
  • 提供测试集
  • 交叉验证
  • 按照比例分割
 
 
 

3.2 输出结果

 
运行信息:
=== Run information ===
//学习方案以及选项
Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2  
//关系名称
Relation:    iris
//实例数目
Instances:    150
//属性数目
Attributes:   5
              sepallength
              sepalwidth
              petallength
              petalwidth
              class
//测试模式
Test mode:    evaluate on training data

///分类器模型 (完整的训练集合)

=== Classifier model (full training set) ===

J48 pruned tree
------------------

petalwidth <= 0.6: Iris-setosa (50.0)
petalwidth > 0.6
|   petalwidth <= 1.7
|   |   petallength <= 4.9: Iris-versicolor (48.0/1.0)
|   |   petallength > 4.9
|   |   |   petalwidth <= 1.5: Iris-virginica (3.0)
|   |   |   petalwidth > 1.5: Iris-versicolor (3.0/1.0)
|   petalwidth > 1.7: Iris-virginica (46.0/1.0)

Number of Leaves  :     5

Size of the tree :     9


Time taken to build model: 0.05 seconds

=== Evaluation on training set ===

Time taken to test model on training data: 0.01 seconds
总结
=== Summary ===
//正确分类的实例
Correctly Classified Instances         147               98      %
//错误分类的实例
Incorrectly Classified Instances         3                2      %
//Kappa统计: 用于评判分类器的分类结果和随机分类的差异度。K=1表明和分类器和随机分类完全不同;K=0表明二者之间相同;K=-1表明分类器比随机分类效果还差。   值 越接近1 越好。

Kappa statistic                          0.97  
//平均绝对误差【0,1】
Mean absolute error                      0.0233
//均方根误差[0,1]
Root mean squared error                  0.108 
//相对绝对误差
Relative absolute error                  5.2482 %
//相对均方根误差
Root relative squared error             22.9089 %
//案例的覆盖程度  百分数越大越好
Coverage of cases (0.95 level)          98.6667 %
//平均相对区域的大小
Mean rel. region size (0.95 level)      34      %
//实例总数
Total Number of Instances              150     
//按照类别的详细准确性
=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     Iris-setosa
                 0.980    0.020    0.961      0.980    0.970      0.955    0.990     0.969     Iris-versicolor
                 0.960    0.010    0.980      0.960    0.970      0.955    0.990     0.970     Iris-virginica
Weighted Avg.    0.980    0.010    0.980      0.980    0.980      0.970    0.993     0.980     

混淆矩阵
=== Confusion Matrix ===

  a  b  c   <-- classified as
 50  0  0 |  a = Iris-setosa
  0 49  1 |  b = Iris-versicolor
  0  2 48 |  c = Iris-virginica

 
 
 

4. 分类算法介绍

下面介绍一下常用分类算法,贝叶斯和神经网络分类算法,我们放在后面在专题分析。
4.1 线性回归

        线性回归是利用数理统计中的回归分析,来确定多个变量之间相互依赖的定量关系的一种统计分析方法。线性回归的主要目标是用于预测。线性回归使用观测数据集y值和x值来拟合一个预测模型,构建这样一个模型后,如果给出一个新的x值,但没有给出相应的y值,这时就可以用预测模型预测y值。

 
 
4.2决策树
决策树是一种预测模型,它包括决策结点、分支和叶结点三个部分。其中,决策结点代表一个测试,通常代表分类样本的某个属性,在该属性不同测试结果就代表一个分支,分支表示某个决策结点的不同取值。每个叶结点存放某个类别标签,表示一种可能的分类结果。
 
4.3基于规则的分类器
基于规则的分类器是使用一组判断规则来对记录进行分类的技术。模型的规则使用析取范式。
 
4.4 基于实例的算法
基于决策树分类和基于规则的分类框架包括两个步骤:第一步是归纳步,由训练数据构建分类模型;第二步是演绎步,将模型应用于测试样本。
前面介绍的分类都是先对训练数据进行学习,得到分类模型,然后对未知数据进行分类,这种分类方法称为积极学习器。与之相反的策略是推迟对训练数据的建模,知道需要对未知样本进行分类时才进行建模,采用这种策略的分类器称为消极学习器。最典型的代表是最近邻方法。KNN(Nearest Neighbor)途径是找出与测试样本相对接近的所有训练样本,这些训练样本称为NN,然后使用最近邻的类别标签来确定测试样本的类别属性。
 
 
4.5 支持向量机
支持向量机(SVM)是一种监督式学习的分类器。广泛应用于统计分类和回归分析。SVM的特点是能够同时最小化经验误差与最大化几何边缘。
支持向量机有坚实的统计学理论基础,并且在时间上有诸多成功的案例。SVM可以很好的用于高维数据,避免维数灾难。她有一个独特的特点,就是使用训练实例的一个子集来表示决策边界,该子集称为支持向量。支持向量机的使用原理就是要构建找到最大边缘超平面,所定义的线性分类器称为最大边缘分类器。
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
数据挖掘Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值