毕业设计是基于Web的数据挖掘系统,其中主框架使用了Spring MVC集成MyBatis,挖掘算法的实现采用了Weka提供的开源jar包。
在参考了:
Weka介绍
某个数据挖掘大牛的Weka总结
之后,完成了该系统的设计开发。
调用Weka算法的时候,需要的元数据格式为.arff文件,Arff文件相关介绍
这里简单介绍下构造arff文件的过程。
Arff(attribute relation file format 关系属性格式)文件是一种由独立、无序实例组成的数据集文件,是一种 ASCII 文本文件。在 Arff 文件中,%开始表示注释;@relation 表示数据之间的关系;@attribute 表示字段名称和字段类型;@data 表示具体的数据,同时数据的顺序要和@attribute 中的属性保持一致。文件内容中,最开始的部分显示文件注释,之后显示关系的名字和属性的具体定义,在属性下是具体的数据集合。
关键代码:
一开始需要实例化一个Vector来保存数据属性:
FastVector atts = new FastVector();// 保存属性
同时需要有保存单条数据
double[] vals;// arff保存单条数据
判断数据格式之后新建数据属性:
atts.addElement(new Attribute(numName));
之后填充数据:
vals[j] = instances.attribute(j).addStringValue("XXXXX");
<