数据挖掘第三版(部分)题

最新推荐文章于 2023-06-17 21:20:43 发布

Xい

最新推荐文章于 2023-06-17 21:20:43 发布

阅读量1.9k

点赞数 2

分类专栏： AI 文章标签：数据挖掘分类算法数据分析

本文链接：https://blog.csdn.net/qq_43695167/article/details/107039917

版权

AI 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第三章：
1、
在这里插入图片描述
解：用皮尔逊相关系数判断X，Y是否相关，计算如下：

3.3

解：（a）将数据划分为深度为3的等频的箱：
Bin1：13，15，16 Bin2：16，19，20 Bin3：20，21，22
Bin4：22，25，25 Bin5：25，25，30 Bin6：33，33，35
Bin7：35，35，35 Bin8：36，40，45 Bin9：46，52，70
用箱均值光滑：
Bin1：44/3，44/3，44/3 Bin2：55/3，55/3，55/3
Bin3：21，21，21 Bin4：24，24，24
Bin5：80/3，80/3，80/3 Bin6：101/3，101/3，101/3
Bin7：35，35，35 Bin8：121/3，121/3，121/3
Bin9：56，56，56
这种技术对给定数据的效果：将属性值离散化，可以递归地用于结果划分，产生概念分层；
(b)通过聚类检测离群点；
©回归、聚类。
3.6
在这里插入图片描述
解：（a）由已知得：数据组中最小值与最大值分别为200和1000，把数据组映射到区间[0，1]中，根据最小-最大规范化，
200：（200-200)(1-0)/(1000-200)+0=0
300：（300-200)(1-0)/(1000-200)+0=0.125
400：（400-200)(1-0)/(1000-200)+0=0.25
600：（600-200)(1-0)/(1000-200)+0=0.5
1000：（1000-200)*(1-0)/(1000-200)+0=1
(b)z分数规范化：在这里插入图片描述
数据组的均值为：（200+300+400+600+1000)/5=500；
标准差为：282.84

200：(200-500)/282.84=-1.06
300：(300-500)/282.84=-0.71
400：(400-500)/282.84=-0.35
600：(600-500)/282.84=0.35
1000：(1000-500)/282.84=1.77
©用均值绝对偏差的z分数规范化：
在这里插入图片描述
SA=(|200-500|+|300-500|+|400-500|+|600-500|+|1000-500|)/5=240
200：(200-500)/240=-1.25
300：(300-500)/240=-0.83
400：(400-500)/240=-0.42
600：(600-500)/240=0.42
1000：(1000-500)/240=2.08
(d)小数定标规范化：
数据组的最大绝对值为1000，用10000（即j=4），
在这里插入图片描述
200：0.02；300：0.03；400：0.04；600：0.06；1000：0.1
3.9

解：(a)等频划分：N/3=4
Bin1：5，10，11，13 Bin2：15，35，50，55
Bin3：72，92，204，215
(b)等宽划分：(215-5)/3=70
Bin1：5，10，11，13，15，35，50，55，72
Bin2：92
Bin3：204，215
©聚类：
Bin1：5，10，11，13，15 Bin2：35，50，55，72，92
Bin3：204，215
3.11
在这里插入图片描述
解：(a)

(b) SRSWOR：无放回简单随机抽取，从数据组中抽取s个样本，每次收取一个样本且不放回；
SRSWR：有放回简单随机抽取，与SRSWOR的区别在于抽取出的样本会再放回；

簇抽样：如果数据组中的元组被分组放到M个互不相交的簇中，则可以得到s（s<M）个簇的简单随机抽样；
在这里插入图片描述
分层抽样：如果数据组被划分成互不相交的部分，则对每一层进行简单随机抽样就可以得到数据组的分层抽样；

第六章：

解：连接产生的C3={{a，b，c}，{a，b，d}，{a，c，d}，{b，c，d}}；
剪枝后产生的C3={{a，b，c}，{a，b，d}。
在这里插入图片描述
解：

解：（1）扫描数据集，对每个物品进行计数：
牛奶：6，鸡蛋：7，面包：7，薯片：7，
爆米花：2，啤酒：4，黄油：2；
（2）与最小支持度4相比，并按降序重排物品集：
鸡蛋：7，面包：7，薯片：7，牛奶：6，啤酒：4；
（3）根据项目出现的次数重新调整物品清单：
在这里插入图片描述
（4）构建FP树：

（5）挖掘频繁项集：
<1>面包的条件模式基：{鸡蛋：5}，
频繁项集：{鸡蛋，面包：5}。
<2>薯片的条件模式基：{鸡蛋面包：4}，{鸡蛋：2}，{面包：1}；
形成单路径{鸡蛋：6，面包：5}；列举得薯片的频繁项集：
{{鸡蛋，薯片：6}，{面包，薯片：5}，{鸡蛋，面包，薯片：5}}。
<3>牛奶的条件模式基：{鸡蛋面包薯片：3}，
{鸡蛋薯片：1}，{面包：1}，{面包薯片：1}；
形成单路径{鸡蛋：4，面包：5，薯片：5}，
列举得到牛奶的频繁项集：
{{鸡蛋，牛奶：4}，{面包，牛奶：5}，{薯片，牛奶：5}，{鸡蛋，面包，牛奶：4}，{鸡蛋，薯片，牛奶：4}，{面包，薯片，牛奶：5}，{鸡蛋，面包，薯片，牛奶：4}}。
<4>啤酒的条件模式基：{鸡蛋面包薯片牛奶：1}，{鸡蛋面包：1}，
{鸡蛋薯片啤酒：1}，{面包牛奶啤酒：1}，都不大于4，所以啤酒没有频繁项集。
4、
在这里插入图片描述
解：（a）有效性：Apriori需多次扫描数据库而FP只需要建立FP树的时候扫描一次；在Apriori算法中由于联接，产生候选比较慢，而FP-growth不产生任何候选；

（b）

第八章：
1、基尼指数练习：

解：

8.5
在这里插入图片描述
解：面对这种大型数据集构造决策树时，可以使用雨林算法；此算法内存中需要存储的是以avc_set为根的树，计算avc_set的根节点，扫描一次数据库，构建avc_list的50个属性，并令每个属性有100个不同的值，即需要的总大小是100 50|C|（|C|表示每个值占据的空间大小），对于一个合理的|C|能够适应512M的大小；使用这种每个节点存储一部分avc-集的方法，我们可以适应内存的水平。
8.6
在这里插入图片描述
解：朴素贝叶斯被成为“朴素”是因为它假设条件独立分布，这个假设可以用来减少计算代价，因此称为“朴素”；其主要思想是通过后概率的贝叶斯定理使用P(X|C_i)P(C_i)得到最大值来对数据进行分类的。
8.7
在这里插入图片描述

解：

6、

解：