weka数据预处理:使用weka将excel数据转换为arff格式数据

.csv -> .arff    
方法一:运行WEKA的主程序,出现GUI后点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上 
java weka.core.converters.CSVLoader filename.csv > filename.arff 

即可完成转换。 

方法二:进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。


  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘》 Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv
一、实验目的 使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比 较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 二、实验环境 实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arffWeka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写 成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是 一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结 合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由 不同的学习方案所得出的结果。 三、数据预处理 Weka平台支持ARFF格式和CSV格式数据。由于本次使用平台自带的ARFF格式数据,所以 不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示 图1 ARFF格式数据集(iris.arff) 对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例 所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。 实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的 数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属 性的筛选。 实验所需的训练集和测试集均为iris.arff。 四、实验过程及结果 应用iris数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试 和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模 型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后 使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对 测试数据进行预测。 1. LibSVM分类 Weka 平台内部没有集成libSVM分类器,要使用该分类器,需要下载libsvm.jar并导入到Weka 中。 用"Explorer"打开数据集"iris.arff",并在Explorer中将功能面板切换到"Classif y"。点"Choose"按钮选择"functions(weka.classifiers.functions.LibSVM)",选择Li bSVM分类算法。 在Test Options 面板中选择Cross-Validatioin folds=10,即十折交叉验证。然后点击"start"按钮: "使用LibSVM分类算法训练数据集得出的结果 " "参数:–S 0 –K 2 –D 3 –G 0.0 –R 0.0 –N 0.5 –M 40.0 –C 1.0 " "–E 0.0010 –P 0.1 " " " "结果分析: " "使用该参数指定的LibSVM训练数据集,得到准确率为96.6667%,其中150个 " "实例中的145个被正确分类,5个被错误分类。根据混淆矩阵,被错误分类实" "例的为:2个b类实例被错误分类到c;3个c类实例被错误分类到b。该算法P=" "0.967,R=0.967,ROC面积为0.975。 " 将模型应用于测试集: "使用LibSVM分类算法测试数据集得出的结果 " " " "分类误差: " " " "结果分析: " "准确率为98.6667%,只有两个实例被错误分类。P=0.987,R=0.987,ROC面 " "积为0.99 " 2. C4.5决策树分类器 依然使用十折交叉验证,训练集和测试集相同。 "使用C4.5决策树分类算法训练数据集得出的结果 " "参数:-C 0.25 -M 2 " " " " " "结果分析: " "使用该参数指定的C4.5决策树分类器训练数据集,得到准确率为96%,其中1" "50个实例中的144个被正确分类,6个被错误分类。根据混淆矩阵,被错误分" "类实例的为:2个b类实例被错误分类到c,1个b类实例被错误分类到a;3个c " "类实例被错误分类到b。该算法P=0.96,R=0.96,ROC面积为0.968。 " 将模型应用于测试集: "使用C4.5分类算法测试数据集得出的结果 " " " "分类误差: " " " "结果分析: " "准确率为98%,有3个实例被错误分类。P=0.98,R=0.98,ROC面积为0.993 " 3. 朴素贝叶斯分类器 "使用朴素贝叶斯分类算法训练数据集得出的结果 " "参数:无 "

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值