![401737d898c359ada86709fd5b243662.png](https://img-blog.csdnimg.cn/img_convert/401737d898c359ada86709fd5b243662.png)
eka可以实现对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化等。本文的目的为(1)提供一个简单可操作的实例;(2)推荐一些描述详细全面质量较高的相关网络教程。
1、软件安装与实例数据下载
(1)软件安装教程:ttps://jingyan.baidu.com/article/93f9803f6e2978e0e56f557a.html
(2)实例数据下载:分类数据iris.arff,回归数据regressiontrain.csv个regression_text.csv
(3)weka自带的数据集位置:在安装路径的weka文件夹下有一个“data”文件,自带的数据集为arff格式。
2、Weka界面简介
![ea5afb1050ea3393c68c909e7ece2c51.png](https://img-blog.csdnimg.cn/img_convert/ea5afb1050ea3393c68c909e7ece2c51.png)
- 这里主要使用explorer为例,explorer是使用最广泛的一个模块。 对于各模块的详细讲解请看链接https://wenku.baidu.com/view/020e57f5f61fb7360b4c65cc.html。
- package包里面包含许多机器学习算法,打开这个包可以加载集成weka中的算法,需要注意的是如果直接在该包中下载算法需要科学上网。
3、案例分析(分类与回归)
(1) 导入iris数据,执行分类算法
数据的导入有很多方式,这里以文件导入为例。导入文件数据的格式有很多种,这里以自带的.arff格式为例。当然,数据格式是可以相互转换的(save功能)。
![7cf4dace3bb3e6e56faceadffd7fdcfc.png](https://img-blog.csdnimg.cn/img_convert/7cf4dace3bb3e6e56faceadffd7fdcfc.png)
(2)数据分析
a,导入数据,编辑数据和数据格式转换; b,数据预处理,如归一化等; c,导入数据信息的汇总; d,选择参与模型的指标; e,指标的基本信息统计; f,选中指标的直方图; g,运行进程,weka在运行中小鸟会左右摆动,当小鸟停止摆动时运行结束。
![8bc6749125c45b5e4b8455b6c017abe1.png](https://img-blog.csdnimg.cn/img_convert/8bc6749125c45b5e4b8455b6c017abe1.png)
![1e0d9a22f44751d120724111b7906d73.png](https://img-blog.csdnimg.cn/img_convert/1e0d9a22f44751d120724111b7906d73.png)
(3)模型训练
a,选择要使用的分类算法,双击a的空白处可以弹出来对应算法的参数,自己调节参数; b,模型训练的一些参数设置, 例如选择交叉验证还是选择按比例验证; c,开始运行模型; d运行结果精度统计信息。
这里以RandomForest算法为例(分类)
![c59341beffabe349db01d314a5d4c9f2.png](https://img-blog.csdnimg.cn/img_convert/c59341beffabe349db01d314a5d4c9f2.png)
(4)回归案例
- 在weka中的分类和回归算法都在weka中的classify里面。
- 上述操作过程只是利用数据对模型进行了训练,得到的精度为模型训练精度。如果想要利用已经训练好的模型预测新的数据应该怎么办呢?这里以Weka中的回归作为实例进行说明。
- 训练回归模型的步骤上述分类的模型完全一样,选择的算法位置也是一样的
- 这里以数据“regress”
![03951d4fab212008b3b60fb042beaaf4.png](https://img-blog.csdnimg.cn/img_convert/03951d4fab212008b3b60fb042beaaf4.png)
- 上述对模型进行了训练,下面为对新的数据进行预测,首先添加要测试的数据集
![214963d8bb6d61a7ebb4a3abc188ae76.png](https://img-blog.csdnimg.cn/img_convert/214963d8bb6d61a7ebb4a3abc188ae76.png)
![0327e02c2909a4975ac15ecfdefeb05b.png](https://img-blog.csdnimg.cn/img_convert/0327e02c2909a4975ac15ecfdefeb05b.png)
- 设置预测结果的输出格式(csv)和路径
- 在一开始训练的到的模型上右键,re-evaluate model on current test set.
![42e145f53de8a5dade86db17852871b6.png](https://img-blog.csdnimg.cn/img_convert/42e145f53de8a5dade86db17852871b6.png)
- 预测结果和预测精度
![65172e49a308b1c0c845d596352e3fb4.png](https://img-blog.csdnimg.cn/img_convert/65172e49a308b1c0c845d596352e3fb4.png)
![927c588717b72041ddf1a2301896df96.png](https://img-blog.csdnimg.cn/img_convert/927c588717b72041ddf1a2301896df96.png)
![37147e7157fb6c44eb737c4b513e1ee1.png](https://img-blog.csdnimg.cn/img_convert/37147e7157fb6c44eb737c4b513e1ee1.png)
- 此外Weka想python或者R语言一样可以对选择的算法的参数利用“网格寻优”等算法寻找最佳参数。还有一个是Weka可以自动选取最适合数据的机器学习算法,具体操作后续更新。
4、推荐的网络资源
- https://www.doc88.com/p-8039235380703.html
- https://wenku.baidu.com/view/fe6c9a7031126edb6f1a10a2.html
- https://wenku.baidu.com/view/020e57f5f61fb7360b4c65cc.html
参考
- https://wenku.baidu.com/view/449180c189eb172ded63b7c7.html