How To Load CSV Machine Learning Data in Weka (如何在Weka中加载CSV机器学习数据)

最新推荐文章于 2022-09-16 22:08:09 发布

从流域到海域

最新推荐文章于 2022-09-16 22:08:09 发布

阅读量1.5k

点赞数

分类专栏：人工智能文章标签： CSV Machine Learning Weka

人工智能专栏收录该内容

11 篇文章 0 订阅

订阅专栏

How To Load CSV Machine Learning Data in Weka

原文作者：Jason Brownlee
原文地址：https://machinelearningmastery.com/load-csv-machine-learning-data-weka/
译者微博：@从流域到海域
译者博客：blog.csdn.net/solo95
本文同样刊载于腾讯云+:https://cloud.tencent.com/developer/article/1040260

如何在Weka中加载CSV机器学习数据

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)，是一款免费的，非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的，基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是，该软件的缩写WEKA也是新西兰独有的一种鸟名，而Weka的主要开发者同时恰好来自新西兰的the University of Waikato(来自百度百科，译者注)。

如何在Weka中加载CSV机器学习数据

在开始建模之前，您必须能够加载(您的)数据。

在这篇文章中，您将了解如何在Weka中加载您的CSV数据集。阅读这篇文章后，你会知道：

关于ARFF文件格式以及它在Weka中表示数据的默认方式。
- 如何在Weka Explorer中加载CSV文件并将其保存为ARFF格式。
- 如何在ArffViewer工具中加载CSV文件并将其保存为ARFF格式。
- 本教程假定您已经安装了Weka。

让我们开始吧。

How To Load CSV Machine Learning Data in Weka

照片由Thales提供，保留某些权利。

如何在Weka中描述数据

机器学习算法主要被设计为与数组阵列一起工作。

这被称为表格化或结构化数据，因为数据在由行和列组成的电子表格中看起来就是这样。

Weka在描述数据时拥有特定的以计算机科学为中心的词汇表：

实例(Instance)：一行数据被称为一个实例，就像在一个实例中或来自问题域中的观察(observation)一样。
属性(Attribute)：一列数据被称为一个特征或属性，就像在观察的特征中那样。
每个属性可以有不同的类型，例如：
实数(Real)表示数值，如1.2。
整数(Integer)表示没有小数部分数的数值，如5。
标称(Nominal)表示分类数据，如“狗”和“猫”。
字符串(String)表示单词组成的列表，如同这个句子本身。
在分类问题上，输出变量必须是标称的。对于回归问题，输出变量必须是实数。

Weka中的数据

Weka倾向于以ARFF格式加载数据。

(WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件，这是一种ASCII文本文件。二维表格存储ARFF文件中。译者注)

ARFF是表示属性关系文件格式的首字母缩略词。它是使用标题的CSV文件格式的扩展，提供有关列中数据类型的元数据。

例如，CSV格式经典的鸢尾花数据集的前几行如下所示：

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa

ARFF格式的文件如下所示：

 @RELATION iris

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa