1. WEKA(Waikato Environment for KnowledgeAnalysis):怀卡托智能分析环境。
作为一个大众化的数据挖掘工作平台,WEKA集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化等等。通过其接口,可在其基础上实现自己的数据挖掘算法。
(源代码地址:http://www.cs.waikato.ac.nz/ml/weka/)
2. WEKA的数据文件格式:
- ARFF(Attribute-Relation File Format):ARFF格式(.arff)是WEKA支持得最好的文件格式,这是一种ASCII文本文件。
- CSV:WEKA提供对CSV文件的支持,利用WEKA也可以将CSV文件格式转化成ARFF文件格式。
- WEKA提供通过JDBC访问数据库的功能。
3. ARFF文件结构:可以分为两个部分:头信息和数据信息。
① 头信息(Head information):包括了