数据仓库实验三:分类规则挖掘实验


一、实验目的

  通过本实验,进一步理解决策树算法、朴素贝叶斯算法进行分类的原理,并掌握利用Sql Server等工具平台进行分类规则挖掘的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解分类规则挖掘常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于SQL Server、Weka、SPSS等工具平台,利用决策树(Decision tree)算法、朴素贝叶斯(Naïve Bayes)算法进行分类和预测,正确分析实验结果,完成实验报告。

三、实验步骤

  以下以SQL Server作为工具,完成数据集的构建和分类规则的挖掘(利用决策树分类、朴素贝叶斯分类算法)。——以下内容,仅供参考!

1、创建数据库和表

在SSMS中建立DM数据库(模拟不同群体、不同收入、不同信誉的人群是否购买计算机的事实),分别设计DST表(用于建立分类模型的事例表)、DST1表(用于预测的事例表)。DST表的结构和内容如下所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
DST1表的结构和DST表相同,被用于预测/验证,DST1的内容如下:

在这里插入图片描述

DST1有3条记录,其中“是否购买计算机”列为空,待预测后确定。

2、决策树分类规则挖掘

在 Sql Server Business Intelligence Development Studio (BIDS) 采用如下步骤,基于决策树挖掘分类规则。

在这里插入图片描述

(1)新建一个 Analysis Services 项目 jueceshu

定义数据源DM.ds,对应的数据库为前面建立的DM数据库。

在这里插入图片描述

(2)建立数据源视图

定义数据源视图DM.dsv,它包含DST表,用于基于决策树建立分类模型;
定义数据源视图DM1.dsv,它包含DST1表,基于建立的决策树分类模型进行预测。

数据源视图DM.dsv:

在这里插入图片描述
数据源视图DM1.dsv:

在这里插入图片描述

(3)建立挖掘结构 DST.dmm

新建挖掘结构,在“创建数据挖掘结构”页面的“您要使用何种数据挖掘技术?”选项下,选中列表中的“Microsoft决策树”。

在这里插入图片描述
选择数据源视图为DM。

在“指定表类型”页面上,在DST表的对应行中选中“事例”复选框,并单击下一步按钮。

在这里插入图片描述
在“指定定型数据”页面中,将“编号”列设为键列,把“是否购买计算机”设为可预测列,把其它所有列设为输入列。

在这里插入图片描述
在“创建测试集”页面上,“测试数据百分比”选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的“挖掘结构名称”和“挖掘模型名称”中,都输入DST。

在这里插入图片描述
单击“挖掘模型”选项卡,右击“Microsoft_Decision_Trees”选项,在出现的快捷菜单中选择“设置算法参数”命令。将COMPLEXITY_PENALTY,MINIMUM_SUPPORT,SCORE_METHOD,SPLIT_METHOD等参数值进行适当设置。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(4)部署决策树挖掘项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述

在挖掘模型查看器中,浏览决策树分类的结果。

在这里插入图片描述
上面已经建立了决策树分类模型。接下来,就可以利用这个分类模型,对DST1表中3个数据样本的“是否购买计算机”列的值进行预测,步骤如下:

① 单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,指定DM1数据源视图中的DST1表。

在这里插入图片描述
② 保持默认的字段连接关系,将DST1表中的各个列拖放到下方的列表中,选中“是否购买计算机”字段前面的“源”,从下拉列表中选择“DST”选项,而其它字段的数据直接来源于DST1表,只有“是否购买计算机”字段是采用前面训练样本集得到的决策树模型来进行预测的。

在这里插入图片描述
③ 在任一空白处右击,并在下拉菜单中选择“结果”,出现如下所示的分类结果。

在这里插入图片描述

3、朴素贝叶斯分类规则挖掘

  朴素贝叶斯分类的应用,还是基于DM数据库的DST和DST1表,DST用于训练,DST1用于预测,过程此处不再进行描述(预测结果与前面的决策树预测的结果相同),请同学们自行模索。

在这里插入图片描述

具体步骤与决策树分类规则挖掘类似:

(1)建立挖掘结构 Bayes.dmm

在这里插入图片描述

在这里插入图片描述

(2)部署朴素贝叶斯挖掘项目并浏览结果

在这里插入图片描述
查看“挖掘模型”:

在这里插入图片描述
点击“挖掘模型查看器”:

在这里插入图片描述
点击“挖掘模型预测”:

在这里插入图片描述
查看预测结果:

在这里插入图片描述
预测结果和决策树预测结果相同。

四、实验结果分析

1、决策树

在这里插入图片描述

在这里插入图片描述 在这里插入图片描述

学生中,有87.5%购买计算机;非学生中,58.33%购买计算机。由此可见,学生购买计算机的概率比较大。

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

在非学生中,收入“高”的有75%购买计算机;收入“中”的有50%购买计算机;收入“低”的有25%购买计算机。由此可见,收入越高,购买计算机的概率越高。

2、依赖关系网络

在这里插入图片描述

{ \{ {学生 } \} } ⇒ \Rightarrow { \{ {是否购买计算机 } \} }是强关联规则。

在这里插入图片描述

五、实验总结体会

  在挖掘数据仓库中的分类规则实验前,需要对数据进行预处理和清洗,确保数据的质量和完整性,数据的完整性和准确性直接影响了挖掘结果的可信度。这包括去除重复值、处理缺失值和异常值等。
  选择合适的特征对于挖掘有效规则至关重要。使用特征选择技术来排除不相关或冗余的特征,以及特征提取技术来创建新的、更有信息量的特征。用特征选择算法来确定最相关的特征,以提高分类模型的准确性和效率。根据实验的目标和数据的特点,选择适合的分类模型。常用的分类算法包括决策树、朴素贝叶斯、支持向量机等。可以通过交叉验证等方法来评估模型的性能。
  决策树是一种基于树形结构的分类算法,通过对特征进行逐步划分来进行决策。易于理解和解释,可视化效果好。适用于离散型和连续型数据,处理分类和回归问题都有效。对数据的预处理要求相对较低,对异常值和缺失值有一定的鲁棒性。可以处理大规模数据集,对于非线性关系的数据有较好的适应能力。能够输出清晰的规则,便于理解和应用。
  朴素贝叶斯是一种基于贝叶斯定理的概率分类算法,假设特征之间相互独立。计算简单,适用于大规模数据集。主要用于文本分类和情感分析等任务,对于高维度数据和稀疏数据表现较好。需要注意处理连续型数据和处理缺失值的方法。训练和预测速度快,对于数据量大、特征维度高的情况下表现优秀。对于噪声数据有一定的鲁棒性。
  在实验结束后,需要对分类模型进行评估。常用的评估指标包括准确率、召回率、F1值等。同时,可以使用混淆矩阵来分析分类结果的详细情况。对于实验结果,需要进行解释和分析。可以通过特征重要性分析、规则提取等方法来理解分类模型的决策过程。

  • 60
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
《数据挖掘》大作业 院(系)名称:信 息 技 术 学 院 专 业 年 级:11级网络工程(物联网方向) 学 号:111124092 学 生 姓 名:朱 玉 目 录 目 录 I 第1章 数据仓库和数据挖掘简介 1 1.1数据简介 1 1.2数据挖掘技术 1 第2章 创建数据仓库 2 2.1 数据 2 2.1.1 数据属性结构 2 2.1.2 数据库的相关处理 3 2.1.3 实验的开发平台 3 2.2 数据库的结构模块简介 3 第3章 数据挖掘过程 3 3.1 关联规则 3 3.1.1关联规则挖掘过程图解 3 3.1.2决策树挖掘过程图解 24 3.1.3聚类分析挖掘过程图解 26 3.2 数据集挖掘结果 28 3.2.1超市交易关联规则挖掘结果 28 3.2.2影响小学生自控能力调查数据集决策树的挖掘结果 31 3.2.3影响小学生自控能力因素调查数据集聚类分析的挖掘结果 33 第四章 数据仓库和数据挖掘总结 38 4.1关联规则总结 38 4.2决策树总结 38 4.3聚类分析总结 40 第1章 数据仓库和数据挖掘简介 1.1数据简介 我的数据集是由两个不同的数据库组成,因为做关联规则的时候,影响小学生自控能 力的因素分析调查分析数据库,不具备关联规则一对多的条件,因此,我用了课本上的 的超市交易数据集。所以做关联规则的超市数据集,在这里我就不多介绍了。 做决策树,聚类分析所用的数据集影响小学生自控能力的因素分析调查分析数据库主 要父母文化程度,家庭经济状况,教师要求,民族,年纪,年龄,师生关系,是否单亲 ,是否是独生子女,兴趣,性别,姓名,学号,性格,自控能力属性组成。此表是用来 调查影响小学生自控能力的因素有哪些。此数据集做决策树的目的是,可以根据小学生 的基本情况大致了解他的自控能力。此数据集做聚类分析,可以从中挖掘出小学生基本 情况的分类。 1.2数据挖掘技术 关联规则、决策树、聚类分析。 第2章 创建数据仓库 2.1 数据 2.1.1 数据属性结构 如表2-1、2-2所示。 表2-1 超市数据交易表 表2-2 影响小学生自控能力的因素分析调查表 2.1.2 数据库的相关处理 1.创建数据库 2.数据集导入 3.设置主键 4.创建数据库关系图 2.1.3 实验的开发平台 1.实验设备:PC 2.主要开发软件:SQL Sever 2005 3.辅助软件:Office 2.2 数据库的结构模块简介 本数据库有两个数据集组成,超市交易数据集和影响小学生自控能力的因素分析调查 表两个数据集。超市交易中有ID和Items两个属性;影响小学生自控能力的因素分析调查 表数据集中有年级、学号、姓名、年龄、性别、民族、是否单亲、是否独生子女、父母 文化程度、家庭经济状况、是否为班委、教师要求、师生关系、兴趣、性格、自控能力 等属性。 第3章 数据挖掘过程 3.1 关联规则 3.1.1关联规则挖掘过程图解 1.商业智能项目创建过程图解 2.数据源的创建过程图解 3.数据源视图创建过程图解 4.数据集挖掘结构创建过程图解 5.设置算法参数 6.处理挖掘结构过程图解 3.1.2决策树挖掘过程图解 决策树的挖掘过程与关联规则基本上相同,但有些是不同的,因此,我把不同过程的图 解在下面给出。 1.创建挖掘结构过程中挖掘数据所用的列的选项 2.算法参数设置 3.1.3聚类分析挖掘过程图解 聚类分析的挖掘过成与决策树、关联规则也基本上相同,因此,我把不同过程的图解和 决策树一样也在下面给出。 1.挖掘数据集时所用到的属性 2.算法参数设置 3.2 数据集挖掘结果 3.2.1超市交易关联规则挖掘结果 1.项集 2.钻取 3.规则 4.依赖关系网络 3.2.2影响小学生自控能力调查数据集决策树的挖掘结果 1.决策树 2.依赖关系网络 3.2.3影响小学生自控能力因素调查数据集聚类分析的挖掘结果 1.分类关系图 2.分类剖面图 3.分类特征 4.分类对比 第四章 数据仓库和数据挖掘总结 4.1关联规则总结 从超市交易数据集中能挖掘到:能够推测到顾客买商品的时候,大概会买那些商品。比 如根据下图: 从此挖掘结果中能够看到,顾客买cream也可能会买bread。 4.2决策树总结 从影响小学生自控能力因素调查表数据集中能够挖掘出:小学生的自控能力与哪些因素 有关联,关联是否很强,或者根据小学生的基本情况大概能判断出小学生的自控能力的 倾向。比如一下几个图: 从以上几个图片可以看出,影响小学生的自控能力的因素有兴趣、父母文化程度、年级 、家庭经济情况、性别、是否是独生子女、教师要求、是否为班委,影响小学生自控能 力的最强因素是兴趣因素,最弱的是性别。 4.3聚类分析总结 从影响小学生自控能力因素调查表数据集中能够挖掘出:影响小学生自控能力的调查对 象中的基

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Francek Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值