数据挖掘第三版(部分)题

第三章:
1、
在这里插入图片描述
解:用皮尔逊相关系数判断X,Y是否相关,计算如下:
在这里插入图片描述
3.3
在这里插入图片描述
解:(a)将数据划分为深度为3的等频的箱:
Bin1:13,15,16 Bin2:16,19,20 Bin3:20,21,22
Bin4:22,25,25 Bin5:25,25,30 Bin6:33,33,35
Bin7:35,35,35 Bin8:36,40,45 Bin9:46,52,70
用箱均值光滑:
Bin1:44/3,44/3,44/3 Bin2:55/3,55/3,55/3
Bin3:21,21,21 Bin4:24,24,24
Bin5:80/3,80/3,80/3 Bin6:101/3,101/3,101/3
Bin7:35,35,35 Bin8:121/3,121/3,121/3
Bin9:56,56,56
这种技术对给定数据的效果:将属性值离散化,可以递归地用于结果划分,产生概念分层;
(b)通过聚类检测离群点;
©回归、聚类。
3.6
在这里插入图片描述在这里插入图片描述
解:(a)由已知得:数据组中最小值与最大值分别为200和1000,把数据组映射到区间[0,1]中,根据最小-最大规范化,在这里插入图片描述
200:(200-200)(1-0)/(1000-200)+0=0
300:(300-200)
(1-0)/(1000-200)+0=0.125
400:(400-200)(1-0)/(1000-200)+0=0.25
600:(600-200)
(1-0)/(1000-200)+0=0.5
1000:(1000-200)*(1-0)/(1000-200)+0=1
(b)z分数规范化:在这里插入图片描述
数据组的均值为:(200+300+400+600+1000)/5=500;
标准差为:282.84
在这里插入图片描述
200:(200-500)/282.84=-1.06
300:(300-500)/282.84=-0.71
400:(400-500)/282.84=-0.35
600:(600-500)/282.84=0.35
1000:(1000-500)/282.84=1.77
©用均值绝对偏差的z分数规范化:
在这里插入图片描述
SA=(|200-500|+|300-500|+|400-500|+|600-500|+|1000-500|)/5=240
200:(200-500)/240=-1.25
300:(300-500)/240=-0.83
400:(400-500)/240=-0.42
600:(600-500)/240=0.42
1000:(1000-500)/240=2.08
(d)小数定标规范化:
数据组的最大绝对值为1000,用10000(即j=4),
在这里插入图片描述
200:0.02;300:0.03;400:0.04;600:0.06;1000:0.1
3.9
在这里插入图片描述
解:(a)等频划分:N/3=4
Bin1:5,10,11,13 Bin2:15,35,50,55
Bin3:72,92,204,215
(b)等宽划分:(215-5)/3=70
Bin1:5,10,11,13,15,35,50,55,72
Bin2:92
Bin3:204,215
©聚类:
Bin1:5,10,11,13,15 Bin2:35,50,55,72,92
Bin3:204,215
3.11
在这里插入图片描述
解:(a)
在这里插入图片描述
(b) SRSWOR:无放回简单随机抽取,从数据组中抽取s个样本,每次收取一个样本且不放回;
SRSWR:有放回简单随机抽取,与SRSWOR的区别在于抽取出的样本会再放回;
在这里插入图片描述
簇抽样:如果数据组中的元组被分组放到M个互不相交的簇中, 则可以得到s(s<M)个簇的简单随机抽样;
在这里插入图片描述
分层抽样:如果数据组被划分成互不相交的部分,则对每一层进行简单随机抽样就可以得到数据组的分层抽样;
在这里插入图片描述
第六章:
在这里插入图片描述
解:连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}};
剪枝后产生的C3={{a,b,c},{a,b,d}。
在这里插入图片描述
解:
在这里插入图片描述
在这里插入图片描述
解:(1)扫描数据集,对每个物品进行计数:
牛奶:6,鸡蛋:7,面包:7,薯片:7,
爆米花:2,啤酒:4,黄油:2;
(2)与最小支持度4相比,并按降序重排物品集:
鸡蛋:7,面包:7,薯片:7,牛奶:6,啤酒:4;
(3)根据项目出现的次数重新调整物品清单:
在这里插入图片描述
(4)构建FP树:
在这里插入图片描述
(5)挖掘频繁项集:
<1>面包的条件模式基:{鸡蛋:5},
频繁项集:{鸡蛋,面包:5}。
<2>薯片的条件模式基:{鸡蛋 面包:4},{鸡蛋:2},{面包:1};
形成单路径{鸡蛋:6,面包:5};列举得薯片的频繁项集:
{{鸡蛋,薯片:6},{面包,薯片:5},{鸡蛋,面包,薯片:5}}。
<3>牛奶的条件模式基:{鸡蛋 面包 薯片:3},
{鸡蛋 薯片:1},{面包:1},{面包 薯片:1};
形成单路径{鸡蛋:4,面包:5,薯片:5},
列举得到牛奶的频繁项集:
{{鸡蛋,牛奶:4},{面包,牛奶:5},{薯片,牛奶:5},{鸡蛋,面包,牛奶:4},{鸡蛋,薯片,牛奶:4},{面包,薯片,牛奶:5},{鸡蛋,面包,薯片,牛奶:4}}。
<4>啤酒的条件模式基:{鸡蛋 面包 薯片 牛奶:1},{鸡蛋 面包:1},
{鸡蛋 薯片 啤酒:1},{面包 牛奶 啤酒:1},都不大于4,所以啤酒没有频繁项集。
4、
在这里插入图片描述
解:(a)有效性:Apriori需多次扫描数据库而FP只需要建立FP树的时候扫描一次;在Apriori算法中由于联接,产生候选比较慢,而FP-growth不产生任何候选;
在这里插入图片描述
(b)
在这里插入图片描述
第八章:
1、基尼指数练习:
在这里插入图片描述
在这里插入图片描述
解:
在这里插入图片描述

8.5
在这里插入图片描述
解:面对这种大型数据集构造决策树时,可以使用雨林算法;此算法内存中需要存储的是以avc_set为根的树,计算avc_set的根节点,扫描一次数据库,构建avc_list的50个属性,并令每个属性有100个不同的值,即需要的总大小是100 50|C|(|C|表示每个值占据的空间大小),对于一个合理的|C|能够适应512M的大小;使用这种每个节点存储一部分avc-集的方法,我们可以适应内存的水平。
8.6
在这里插入图片描述
解:朴素贝叶斯被成为“朴素”是因为它假设条件独立分布,这个假设可以用来减少计算代价,因此称为“朴素”;其主要思想是通过后概率的贝叶斯定理使用P(X|C_i)P(C_i)得到最大值来对数据进行分类的。
8.7
在这里插入图片描述
在这里插入图片描述
解:
在这里插入图片描述
6、
在这里插入图片描述
解:
在这里插入图片描述

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xい

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值