java arff文件_Java调用Weka API创建Arff文件

本文介绍了如何在Java项目中利用Weka的API生成Arff文件,用于数据挖掘。Arff文件是关系属性格式文本文件,包含数据实例和属性定义。文章详细阐述了构建Arff文件的步骤,包括创建属性、填充数据和实例化Instances对象。通过示例代码展示了如何根据数据类型(数值、日期或字符串)动态构建属性,并将数据写入Arff文件。
摘要由CSDN通过智能技术生成

毕业设计是基于Web的数据挖掘系统,其中主框架使用了Spring MVC集成MyBatis,挖掘算法的实现采用了Weka提供的开源jar包。

调用Weka算法的时候,需要的元数据格式为.arff文件,Arff文件相关介绍

这里简单介绍下构造arff文件的过程。

Arff(attribute relation file format 关系属性格式)文件是一种由独立、无序实例组成的数据集文件,是一种 ASCII 文本文件。在 Arff 文件中,%开始表示注释;@relation 表示数据之间的关系;@attribute 表示字段名称和字段类型;@data 表示具体的数据,同时数据的顺序要和@attribute 中的属性保持一致。文件内容中,最开始的部分显示文件注释,之后显示关系的名字和属性的具体定义,在属性下是具体的数据集合。

关键代码:

一开始需要实例化一个Vector来保存数据属性:

FastVector atts = new FastVector();// 保存属性

同时需要有保存单条数据

double[] vals;// arff保存单条数据

判断数据格式之后新建数据属性:

atts.addElement(new Attribute(numName));

之后填充数据:

vals[j] = instances.attribute(j).addStringValue("XXXXX");

总共就这么四步,完整代码:

/** * 创建合法格式的Arff文件 * * @param data 该参数为封装好的Data参数,数据类型为 * Map> * @return * @throws Exception */

public String createArffFile(Data data, int userID) throws Exception {

FastVector atts = new FastVector();// 保存属性

double[] vals;// arff保存单条数据

// 创建List作为数据类型flag

List indexList = new LinkedList();

// 获取data数据

wekaData = XMLParser.praseXML(data.getData_Content());

// 获取data中的第0行为title,第一行为判断数据类型

List titleList = wekaData.get("0");

List firstList = wekaData.get("1");

// 遍历title中的数据类型,为arff文件创建attribute

for (int i = 0; i < firstList.size(); i++) {

Object obj = firstList.get(i);

String objStr = obj.toString();

if (isNumeric(objStr)) {

indexList.add("Numeric");

String numName = String.valueOf(titleList.get(i));

atts.addElement(new Attribute(numName));

} else if (isValidDate(objStr)) {

indexList.add("Date");

atts.addElement(new Attribute((String) titleList.get(i), "yyyy-MM-dd"));

} else {

indexList.add("String");

atts.addElement(new Attribute((String) titleList.get(i), (FastVector) null));

}

}

// 必须放在创建attribute之后 否则会报异常

Instances instances = new Instances(data.getData_Name(), atts, 0); // 创建一个weka

// data实例

System.out.println(indexList);

// 填充数据

for (int i = 1; i < wekaData.size(); i++) {

vals = new double[instances.numAttributes()];

String index = String.valueOf(i);

int length = wekaData.get(index).size();

System.out.println(length);

// 遍历填充

for (int j = 0; j < length; j++) {

if (indexList.get(j).equals("String")) {

System.out.println("string");

vals[j] = instances.attribute(j).addStringValue((String) wekaData.get(index).get(j));

} else if (indexList.get(j).equals("Numeric")) {

System.out.println("number");

System.out.println((String) wekaData.get(index).get(j));

double num = Double.valueOf((String) wekaData.get(index).get(j));

vals[j] = num;

}

}

instances.add(new Instance(1.0, vals));

// end

}

System.out.println(instances.toString());

// IP时间戳工具

IPTimeStamp ipTimeStamp = new IPTimeStamp();

// 保存文件加时间戳重命名,防止不同文件重名覆盖

String fileName = ipTimeStamp.getIPTimeRand() + "_" + userID + "_" + data.getData_Name();

String path = configProperty.getArffPath() + fileName + ".arff";

File outFile = new File(path);

FileUtils.writeStringToFile(outFile, instances.toString(), false);

System.out.println("ArffPath" + configProperty.getArffPath());

return path;

}

构建好的格式举例:K-means聚类样本.arff

@relation K-means聚类样本

@attribute X numeric

@attribute Y numeric

@data

0,0

1,0

0,1

1,1

2,1

1,2

2,2

3,2

6,6

7,6

8,6

6,7

7,7

8,7

9,7

7,8

8,8

9,8

8,9

9,9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值