数据仓库实验四:聚类分析实验


一、实验目的

  通过本实验,进一步理解基于划分的、基于层次的、基于密度的聚类分析方法以及经典的聚类分析算法,并掌握利用 SQL Server 等工具平台进行聚类分析的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解聚类分析算法常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于 SQL Server、Weka、SPSS 等工具平台,利用 K-means 等聚类分析算法进行聚类分析,正确分析实验结果,发现知识,完成实验报告。

三、实验步骤

  以下是参照示例:以 SQL Server 作为工具,完成数据集的构建和聚类分析。——以下内容,仅供参考!

1、建立数据表

启动SQL Server,在DM数据库中建立一个Student表,其结构如下,并输入示例数据。

在这里插入图片描述
在这里插入图片描述

2、建立数据源视图

新建一个 Analysis Services 项目 ClusterMining。建立数据源视图,它对应DM数据库中的Student表。

在这里插入图片描述
在这里插入图片描述

3、建立挖掘结构Student.dmm

新建挖掘结构,在“创建数据挖掘结构”页面的“您要使用何种数据挖掘技术?”选项下,选中列表中的“Microsoft聚类分析”。

在这里插入图片描述
选择数据源视图为DM。

在“指定表类型”页面上,在Student表的对应行中选中“事例”复选框,并单击下一步按钮。

在这里插入图片描述
在“指定定型数据”页面中,将“学号”列设为键列,把其它所有列设为输入列。

在这里插入图片描述
在这里插入图片描述
在“创建测试集”页面上,“测试数据百分比”选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的“挖掘结构名称”和“挖掘模型名称”中,都输入Student。

在这里插入图片描述
在“挖掘模型”选项卡中设置算法的参数如下图所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、部署项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述
在挖掘模型查看器中,浏览聚类分析的结果。

在这里插入图片描述

5、挖掘模型预测

(1)单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,指定DM数据源视图中的Student表。

在这里插入图片描述
(2)保持默认的字段连接关系,将Student表中的各个列拖放到下方的列表中,选中最后一行下面的空白行字段前面的“源”,从下拉列表中选择“预测函数”选项,并设置字段为Cluster。

在这里插入图片描述
(3)在任一空白处右击,并在下拉菜单中选择“结果”,出现如下所示的分类结果。

在这里插入图片描述

四、实验结果分析

1、分类关系图

(1)所有链接

在这里插入图片描述
(2)最强链接

在这里插入图片描述
2、分类剖面图

在这里插入图片描述
3、分类特征

在这里插入图片描述
4、分类对比
(1)“分类1”VS“非分类1”

在这里插入图片描述
(2)“分类1”VS“分类2”

在这里插入图片描述

五、实验总结体会

  通过数据挖掘聚类分析实验,积累了许多宝贵的经验。首先,我认识到对数据进行深入理解是取得成功的关键。在开始实验之前,我仔细分析了数据的结构、特征和可能存在的异常或缺失值等情况。这样的数据理解使我能够更好地选择合适的分析方法,并取得更好的结果。其次,在进行聚类分析之前,特征选择和预处理是不可或缺的步骤。通过特征选择,我能够提高模型的性能并降低计算复杂性。而预处理则可以使数据更加干净、一致,从而减少对聚类结果的影响。
  选择合适的算法是成功实现聚类分析的重要因素。我研究了各种聚类算法,包括K均值、层次聚类和DBSCAN等。每种算法都有其适用的场景和限制,所以我根据实际情况选择了最合适的算法。这样做可以确保我的聚类结果更加准确和可靠。然后,我意识到结果的解释和评估是聚类分析中不可或缺的步骤。聚类分析的结果不仅仅是一组类别标签,更重要的是对这些类别的解释和理解。最后,我意识到持续学习和改进是取得优秀成绩的关键。数据仓库与数据挖掘是一个不断发展和变化的领域,需要不断学习新的方法和算法。通过不断尝试新的技术和流程,我能够不断优化实验流程,并取得更好的结果。
  总的来说,进行数据仓库与数据挖掘的聚类分析实验是一个充满挑战但又充满乐趣的过程。通过深入理解数据、选择合适的算法、进行特征选择和预处理、解释和评估结果,以及持续学习和改进,我相信我能够不断提高我的数据分析技能,并在这个领域取得更出色的成果。

  • 58
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论
Spark出租车数据聚类分析实验是指使用Spark分布式计算框架对出租车数据进行聚类分析实验。 首先,为了进行此实验,我们需要一个包含出租车数据的数据集。这个数据集包含了每辆出租车的GPS轨迹,行驶速度,载客情况等信息。这些信息可以用来帮助我们对出租车进行聚类分析。 其次,我们需要使用Spark框架进行分布式计算。Spark是一种先进的计算框架,它能够处理大规模数据并实现高效的并行计算。我们可以使用Spark的机器学习库(MLlib)来进行聚类分析实验的第一步是数据预处理。我们需要对原始的出租车数据进行清洗和转换,以便后续的聚类分析。清洗数据包括去除无效和重复记录,处理缺失值等。然后,我们可以将数据转换为适用于聚类分析的格式。 接下来,我们可以使用Spark的MLlib库来进行聚类分析。首先,我们选择一个合适的聚类算法,如K-means或DBSCAN。然后,我们将数据传递给算法,并指定要分成的簇数。算法将根据数据的特征和距离等进行计算,并将数据点分配到不同的簇中。 最后,我们可以将聚类结果进行可视化展示。我们可以使用图表或地图等方式来展示不同簇的分布情况。这样能够帮助我们更好地理解出租车数据的聚类结果。 通过这个实验,我们可以深入了解出租车数据的特征和分布情况。这对于交通规划,车辆调度等领域都具有重要的实际应用价值。而Spark框架的使用可以加快数据处理和分析的速度,提高实验效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Francek Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值