使用orange进行分类预测

前言

上一篇博客介绍了安装Scikit-learn库,安装好后准备写作业,发现还是要写代码,有点类似我最开始的matlab程序,调用库中的函数进行数据分析。无意中听我同学说,orange系统可以用小控件点点就完事了,果断放弃了sklearn,投入了orange的怀抱。下载安装(官网:https://orange.biolab.si/)慢慢了解后才发现是个巨大的坑,可能由于是国外的软件,专业性又比较强,网上对它的介绍少之又少。这时还好我强大的B站及时出现,带我脱离苦海(数据挖掘orange教程(中文字幕)_哔哩哔哩 (゜-゜)つロ 干杯~   https://www.bilibili.com/video/av18264545)。本文将介绍一下使用orange软件进行分类预测过程。

加载数据

打开软件弹出下面界面,new是新建文件,Examples中是一些典型的模型

单击Data中的File图标,File图标会自动在画布中显示;第二步:双击File

在1处,可以选择orange自带的数据集(.tab),也可以导入本地的.csv或.xlsx文件。在2处,可以链接网络上的数据源。3处显示的是导入数据源纵列的信息,可以通过双击修改Type和Role信息,一般本地导入时都需要修改某一列的Role为target。

单击Data中的Data Table图标,出现在画布后,用一条线像下图一样连起来。

双击Data Table图标后,就可以看到导入的数据了

数据可视化

orange提供了许多可视化的工具,方便用户预览分析,交互式学习。下面介绍下Distributions工具和Scatter Plot工具用法:

双击Distributions图标出现下图界面,在1处选择一个特征都会在2处出现对应的图像;对应该Iris数据集来说,我们可以查看每个特征量区分不同鸢尾花种类的情况。如果某特征量对应的图像重合度比较高,说明该特征量对区分目标的相关性比较小,可以考虑将该特征量删除。

双击Sctter Plot图标出现下面界面,将多维特征量用二维的特征量做散点图表示,点击1处可以找到最佳的区分效果。

建立分类模型

Model中包含了很多分类算法,用这些算法训练数据建立分类模型,从而进行预测;Evaluate则是对我们建立的模型评估打分。

          

下面用逻辑回归方法建立了一个分类模型。其它方法类似,只是换个方法而已;也可以同时用多种方法连接到Test & Score上,比较在该数据集中不同方法的好坏。

双击Text&Score图标出现下图。为了避免过拟合,该控件默认训练集和测试集的比例,并通过交叉验证,得出准确率(CA)。

双击Confusion Matrix图标查看模型预测情况。点击选择数据传入Data Table图标中,查看具体哪些数据预测错了。

分类预测

训练好分类模型后,我们就可以输入数据用Predictions工具进行预测。

新建一个Excel表保存需要预测的数据导入File(1)图标中,保证列名和顺序和File中的一致。

双击Predictions图标显示预测结果:

©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页