Weka下载地址https://www.cs.waikato.ac.nz/~ml/weka/。如果本身电脑已安装了Java虚拟机,则直接选择不带jre的exe
安装过程就一直next就行。安装好后要配置环境变量,在CLDDPATH中加入D:\someFile\Weka-3-8\weka.jar;
(1)Weka主要功能:Weka作为一个开源的数据挖掘工作平台,可对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
(2)Weka支持的语言:它是用Java编写的,几乎可以在任何平台上运行
(3)Weka已经提供的数据挖掘(机器学习)算法: Weka分布中包含的算法目前尚未涵盖的另一个重要领域是序列建模。
(4)Weka能否在其中加入自己的算法:能,通过Weka提供的接口,用自己的Java代码调用。
(5)使用Weka进行数据挖掘的流程:
1)数据预处理
数据预处理包括特征选择,特征值处理(比如归一化),样本选择等操作。
2)训练
训练包括算法选择,参数调整,模型训练。
3)验证
对模型结果进行验证。
(6)Weka支持很多种文件格式,包括arff、xrff、csv,甚至有libsvm的格式。其中,arff是最常用的格式。
(7)Weka的使用
窗口右侧共有4个应用,分别是
1)Explorer
用来进行数据实验、挖掘的环境,它提供了分类,聚类,关联规则,特征选择,数据可视化的功能。(An environment for exploring data with WEKA)
2)Experimentor
用来进行实验,对不同学习方案进行数据测试的环境。(An environment for performing experiments and conducting statistical tests between learning schemes.)
3)KnowledgeFlow
功能和Explorer差不多,不过提供的接口不同,用户可以使用拖拽的方式去建立实验方案。另外,它支持增量学习。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.)
4)SimpleCLI
简单的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.)
5)Workbench工作台
(5)查询介绍Spark的简单资料,初步了解其对数据挖掘(机器学习)的支持情况。
(6)了解机器学习、数据挖掘、人工智能的关系。