转眼使用Weka已经大半年了,自己在学习过程中走了很多弯路,使用过程中我最大的感觉就是国内没有对Weka一个完善的整理和相关的学习论坛。为了避免其他人走我走过的弯路,相关的从本篇开始,我将持续更新使用Weka进行数据挖掘的相关知识,由于本人学习时间也不长,出现错误在所难免,还望大家批评指正。
Weka简介
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。Weka主要组件
Weka是基于JAVA的通用数据挖掘平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka学习相关资料
①首先就是Weka的官方网站:
http://www.cs.waikato.ac.nz/ml/weka/
②Weka 的API中文版:
http://download.csdn.net/detail/monoid0805/5277987
③Weka编程手册:
Weka manual,可以在官网找到。
④Weka问答社区:
http://weka.wikispaces.com/Frequently+Asked+Questions
⑤Weka入门指南
http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code
其他的还有比如Stack Overflow等程序员问答社区也有不少资料,有很多大牛的回答。
基本上以上的资料学习Weka就足够的,本教程主要讲解Weka的API使用,GUI的使用官方文档讲解比较详细,也很容易摸索。在代码中使用Weka
如果使用Weka进行API二次开发,强烈建议使用Maven进行项目管理,便于将所需要的依赖包方便的导入。Weka开发所需要的依赖包可以在下面网址找到:
http://mvnrepository.com/artifact/nz.ac.waikato.cms.weka
当然,Weka3.7版本和Weka3.6版本区别还是比较大,Weka3.7版本删除了如LibSVM包、SMOTE包等第三方包,但是在使用中你如果使用到这些功能你仍然可以在Maven仓库中找到。
使用Intellij进行开发是个不错的选择,当然eclipse也可以,当把这些工作都搞定后,就可以进行实际的开发工作了。