python 数据挖掘库orange3 介绍

最新推荐文章于 2024-05-23 18:31:56 发布

杨澄

最新推荐文章于 2024-05-23 18:31:56 发布

阅读量3.1k

点赞数

文章标签： python 数据挖掘开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/richard_m_yang/article/details/134183497

版权

orange3 是一个非常适合初学者的data mining library. 它让使用者通过拖拽内置的组件来形成工作流。让你不需要写任何代码就可以体验到数据挖掘和可视化的魅力。

它的桌面如下，这里我创建了 3 个节点，分别是数据集、小提琴图，散点图
在这里插入图片描述

其中 Datasets 是从左边的 Data 组件库中拖拽过来的，Datasets 是 orange3 内置的数据集，比如非常常用的iris（鸢尾花）数据集。双击桌面上的 Datasets 就能选择不同的数据集来作为下一步的数据来源。

点击左下角的预览按钮，可以像 excel 一样预览这个数据集

可视化

先看一下散点图， x 轴选择了 sepal(花萼长度)， y轴是花的类别，可以看出，相关性并不是很强，有很大一段x 轴的区域，三种类别都有可能。

在这里插入图片描述
我们换一个 x 轴，选择 petal length (花瓣长度)，发现相关性很大，基本上很容易区分开

小提琴图

小提琴图主要表现的是某个特征的分布情况。下图表现了三种花的 petal length 分布，可以看出蓝色的 Iris-setosa 分布的比较集中，而且与其他的类别没有重叠。
这意味着，当你看看到一株 petal length(花瓣长度) 小于2.5的时候，几乎可以断定它属于setosa属

有趣的是，至于花萼(sepal)的宽度，setosa属比起其它属看起来却趋向于长尾分布（小提琴更窄），说明它的分布范围随机性更大。
在这里插入图片描述
再看一个热力图
请添加图片描述
可以看出三种花(x轴的三个颜色) 中，y 轴是四个属性， Iris-setosa 的petal length 这个属性明显和其它两种有区别，可以作为一个直观的区分属性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。