本次比赛第一赛季我们团队大赛先用weka对数据进行预处理。weka是一款开源的,免费的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。我非常喜欢这个软件,很容易上手,功能很强大,也不需要很多的编程,图形化做的比较好。打算在数据预处理上主要使用weka。
weka下载安装
weka软件下载网址,根据自己的操作系统选择Windows还是Mac,32位还是64位,强烈推荐装64位系统,因为赛题数据较大,约500M,如果想一次性读取的话,大概需要3.5G内存,而32位系统最大的物理寻址内存也就是4G,再加上系统其它占用,无法一次性导入这么大的数据。当然你也可以分批次导入,这样麻烦一些,需要自己研究一下。
软件下载
在此选择版本的时候需要注意一下,分两种:stable version和developer version,两者的区别是后者多了个package manager,可以安装最新的包;还有就是根据你电脑是否有JAVA 虚拟机选择版本,如果你电脑本身没有装过JAVA虚拟机,就要选择如下红色方框内版本:
如果电脑里已经装过了JAVA虚拟机,选择红色方框下面那个下载安装即可。下载好后安装基本和普通软件安装方法一致。