实验2:基于Weka的数据挖掘程序设计
学号:
姓名:
XXXXXXX
专业:
计算机
班级:
实验目标
在掌握基于Weka工具的数据挖掘(分类、回归、聚类、关联规则分析)应用的基础上,实现基于Weka API的数据挖掘程序设计。
实验内容
- 下载并安装JDK 7.0 64位版,Weka 3.7版,Eclipse IDE for Java Developers 4.0以上版本。
- 基于Weka API的数据分类。
- 基于Weka API的数据回归。
- 基于Weka API的数据聚类。
- 基于Weka API的关联规则分析。
实验步骤
- 下载并安装JDK 7.0 64位版,Weka 3.7版,Eclipse IDE for Java Developers 4.0以上版本
- JDK与Weka的安装方法与实验1中相同。
- 从http://www.eclipse.org/home/index.php 下载并安装Eclipse。
- 在Eclipse中建立一个新的Java工程,用于放置实验程序的源代码。
- 编程请遵循Java编程规范。规范中文版参见:
http://www.hawstein.com/posts/google-java-style.html
。
- 基于Weka API的数据分类
- 读取“电费回收数据.csv”。
Weka支持多种数据导入方式,由于要处理的数据存储的方式为“.csv”, 而CSVLoader是能从csv文件加载数据集,因此采用CSVLoader来加载文件。
读取完数据还需要删除一些无用的属性列,为了实现该目标,在TestClassifier类中增加一个成员函数deleteUnusedAttributes(Instances ins, List<String> deletedAttributes)来完成该过程。
- 数据预处理:
- 将数值型字段规范化至[0,1]区间。
对数据进行规范化就需要用到Normalize类,而该类存在于weka.filters.unsupervised.attribute.Normalize,需要引入该包,之后再对数据进行
规范化
b. 调用特征选择算法(Select attributes),选择关键特征。
特征选择算法如下: