使用orange进行聚类分析

朗文2048

于 2019-04-21 15:02:27 发布

阅读量5.1k

点赞数 2

分类专栏：机器学习文章标签： orange 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/langwen2048/article/details/89430529

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

前言

本文是我这一系列博客的最后一篇，也是我最终作为作业交给数据挖掘老师的。在写这结课设计的过程，看了很多的博客给我带来很大的帮助，也学习了很多，写这些博客也只是想把自己一点点的经验分享给大家。

选择数据集

种子数据集：https://archive.ics.uci.edu/ml/datasets/seeds

三种不同品种小麦籽粒几何性状的测定。用于软X射线技术和GRAINS构建七个实值属性，所有这些参数都是实值连续的。

    1、面积A，
    2、周长P，
    3、紧凑度C = 4 * pi * A / P ^ 2,4
    4、籽粒长度，
    5、籽粒宽度，
    6、不对称系数
    7、核槽的长度。
    下载数据的文件格式为.txt格式，将文件格式改为.csv或.xlsx格式。

数据预处理

打开orange软件，进行数据预处理

Rank控件可以根据数据特征的相关性对其进行排名和筛选，双击控件：

可以看出，compactness和asymmetry特征相关性很低，将其筛除。也可以用Distributions控件通过观察compactness和asymmetry特征值的分布，评价其相关性。

聚类

1、K-means算法

双击K-means控件，设置算法参数：

输入固定簇数3，运行结果：

2、K-means++算法

双击K-means控件，选择K-means++算法

算法对2-10簇群进行打分个，2簇群轮廓分最高，结果为：

3、层次聚类

先用Distances控件计算成对距离的矩阵，然后用Hierarchical Clustering控件显示从输入距离矩阵构造的层次聚类的树形图

选择Top N = 3,传入数据流到Scatter Plot控件进行可视化：

结果分析：

用Silhouette Plot轮廓组件评价聚类效果。数据越靠近数据簇中心，轮廓值越大；离簇中心越远，轮廓值越小：0为位于两簇之间的点，负数为错误划分到别的簇中。

K-means轮廓图：

K-means++轮廓图

层次轮廓图：

通过对比其轮廓图，我们发现：在对该数据进行聚类时，K-means算法要比层次聚类要好，层次聚类中有出现负值；而k-means++算法将数据聚成两簇，没有达到我预期得到的聚类结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。