之前从来没写过文章,这是第一篇,希望自己能把这个习惯坚持下去,算是给自己定期做个总结,也希望能在这里跟大家交流一下心得。
以前一直在做system & network方面的工作,没有怎么接触过datamining,不过马上要去的公司在这方面很有建树,估计去了以后也免不了接触这些知识,更何况bigdata现在是最热门的话题,所以在学校的最后一个学期选了datamining这门课,先入个门,以后有机会的话再深入研究。
目前用weka做了一些简单的数据分析的工作,发现这个工具还是很强大的,所以写这篇文章简单介绍一下weka。
Weka(Waikato Environment for Knowledge Analysis) 由新西兰的Universityof Waikato研发,是一款基于java的machinelearning的软件套件。用户可以使用weka提供的可视化界面,也可以使用weka提供的api开发满足特定需求的模型和算法。同时weka也支持加载开发者自己开发的extensionpackages,所以在weka下几乎能找到了所有现在比较流行的datamining模型和算法的实现。
Weka现在有windows,linux以及mac os版本,可视化界面基本上是一样的。下面用几个例子简单介绍一下如何用weka进行简单的datamining的工作。
训练classifier:
首先在Preprocess标签下,点击Openfile选择一个你要打开的dataset,这个dataset需要符合一定的文件格式才能被weka解析,最常用的是arff格式的文件,所以最好先将你的dataset转换成这个格式的文件。打开文件后,weka会自动解析数据,