我个人认为直接讨论数据挖掘算法和weka的使用过于心急。我一开始就直接学习的数据挖掘方法,有些方法艰涩枯燥,我常常在思考的不是方法本身,而是“这是干什么的?”。
在使用了weka后有些东西渐渐清晰,因为输入和输出给了人很直观的感觉,再结合技术本身学习效率很高。
输入主要有三类:概念、实例和属性。
概念
概念简单而言就是需要被处理的东西。它可以是分类学习中那个已经分类完成的样本集。
你需要处理的东西可能差别很大,但你可以统称它们为概念,而输出就是对其的描述,即概念描述。
实例
实例这个词你可能觉得陌生,但是你可以大致认为其为样本。
我们通常的输入是一个实例集,其中的每一个实例都是单一、独立的概念样本。
当然最常见的实例表现方式就是表格:
不过这是因为如此,有人戏称数据挖掘应该成为文件挖掘。
诚然,关系型数据库可以表现更为复杂的关系,但有限关系的有限集一般都可以转化为单个表。有兴趣深入看看的朋友可以看一下有关反向规格化的虚假事实问题。
属性
如果上面说到的实例是表格中的一行的话,属性就是数据表中的一列。
一个特定实例的一个属性值是属性对应部分的一个测量或者观测值。
ARFF格式
arff格式是weka专用的文件格式,全称Attribute-Relation Fi