matlab上确界距离,习题课PPT课件.ppt

《习题课PPT课件.ppt》由会员分享,可在线阅读,更多相关《习题课PPT课件.ppt(56页珍藏版)》请在金锄头文库上搜索。

1、智能信息处理 习题答疑 助教 谭小勰邮箱 tanxx1214 习题 2 4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖 得到如下结果 a 计算age和 fat的均值 中位数和标准差 b 绘制age和 fat的盒图 c 绘制基于这两个变量的散点图和q q图 习题 2 4 a 计算age和 fat的均值 中位数和标准差 变量age的均值为46 44 中位数为51 标准差为12 85 变量 fat的均值为28 78 中位数为30 7 标准差为8 99 习题 2 4 b 绘制age和 fat的盒图 Matlab StatisticsToolbox 中的boxplot x 命令 习题 2 4 c。

2、 绘制基于这两个变量的散点图和q q图 Matlab StatisticsToolbox plot age fat o qqplot age fat 习题 2 8 假设我们有如下二维数据集 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 b 规格化该数据集 使得每个数据点的范数等于1 在变换后的数据上使用欧几里得距离对诸数据点排位 习题 2 8 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基。

3、于与查询点的相似性对数据库的点排位 欧几里得距离 曼哈顿距离 上确界距离 余弦相似性 习题 2 8 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 习题 2 8 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 所以 排序分别为 欧几里得距离 x1 x4 x3 x5 x2曼哈顿距离 x1 x4 x3 x5 x2上确界距离 x1 x4 x3 x5 x2 x2 x。

4、6 x3 x4 余弦相似性 x1 x3 x4 x2 x5 习题 2 8 b 规格化该数据集 使得每个数据点的范数等于1 在变换后的数据上使用欧几里得距离对诸数据点排位 归一化后的数据 习题 2 8 b 规格化该数据集 使得每个数据点的范数等于1 在变换后的数据上使用欧几里得距离对诸数据点排位 重新计算欧几里得距离排序为 x1 x3 x4 x2 x5 习题 3 3 在习题2 2中 属性age包括以下值 以递增序 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 a 使用深度为3的箱 用。

5、箱均值光滑以上数据 说明你的步骤 讨论这种技术对给定数据的效果 b 如何确定该数据中的离群点 c 还有什么其他方法来光滑数据 习题 3 3 在习题2 2中 属性age包括以下值 以递增序 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 a 使用深度为3的箱 用箱均值光滑以上数据 说明你的步骤 讨论这种技术对给定数据的效果 对以上数据进行箱深度为3的箱均值光滑 需要一下步骤 第一步 对所有数据按从小到大排序 也可以从大到小 第二步 将数据划分到大小为3的等频的箱中箱1 13 15 1。

6、6箱2 16 19 20箱3 20 21 22箱4 22 25 25箱5 25 25 30箱6 33 33 35箱7 35 35 35箱8 36 40 45箱9 46 52 70第三步 计算每个箱的均值第四步 将想汇总每一个值都替换为箱中的均值箱1 44 3 44 3 44 3箱2 55 3 55 3 55 3箱3 21 21 21箱4 24 24 24箱5 80 3 80 3 80 3箱6 101 3 101 3 101 3箱7 35 35 35箱8 121 3 121 3 121 3箱9 56 56 56 习题 3 3 在习题2 2中 属性age包括以下值 以递增序 13 15 16 16。

7、 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 b 如何确定该数据中的离群点 聚类的方法可用来将相似的点分成组或 簇 并检测离群点 落到簇的集外的值可以被视为离群点 作为选择 一种人机结合的检测可被采用 而计算机用一种事先决定的数据分布来区分可能的离群点 这些可能的离群点能被用人工轻松的检验 而不必检查整个数据集 c 还有什么其他方法来光滑数据 其它可用来数据光滑的方法包括别的分箱光滑方法 如中位数光滑和箱边界光滑 作为选择 等宽箱可被用来执行任何分箱方式 其中每个箱中的数据范围均是常量 除了分箱方法外。

8、 可以使用回归技术拟合成函数来光滑数据 如通过线性或多线性回归 分类技术也能被用来对概念分层 这是通过将低级概念上卷到高级概念来光滑数据 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值。

9、35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 最小 最大规范化 z分数规范化 小数定标规范化 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 最小 最大规范化 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值。

10、35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 z分数规范化 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 小数定标规范化 由于最大的绝对值为70 所以j 2则 习题 3 7 使用喜帖3 3。

11、中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 d 小数定标规范化 保持数据的分布和直观解释 同时针对该题还可以挖掘特殊的age数据组 最小最大规范化 当出现除遇到 出界失误 以外的一个落在最大值和最小值以外的点值时 会出现意外结果 Z分数规范化 Z分数规范化将数值转化成表示与平均值的距离的度量 基于标准差 没有小数定标规范化直观 习题 3 12 a 简略描述ChiMerg。

12、e如何工作 b 取鸢尾花数据集作为待离散化的数据集合 使用ChiMerge方法 对四个数值属性分别进行离散化 分裂点 最终区间 习题 3 12 a 简略描述ChiMerge如何工作 b 取鸢尾花数据集作为待离散化的数据集合 使用ChiMerge方法 对四个数值属性分别进行离散化 分裂点 最终区间 a 伪代码 开始将数据按升序排列为每一个不同的数值分配一个单独的间隔当没有达到终止条件时 开始计算每对相邻间隔的开方值用最小的开方值合并这两个区间结束结束 习题 3 12 b 取鸢尾花数据集作为待离散化的数据集合 使用ChiMerge方法 对四个数值属性分别进行离散化 分裂点 最终区间 习题 6 6 。

13、数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 b 列举所有与下面的原规则匹配的强关联规则 给出支持度s和置信度c 其中 X是代表顾客的变量 如 A B 等 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 Apriori算法 由于只有5个购买事件 所以绝对支持度是5 min sup 3 第一步 扫描所有事物 对每个候选计数 生成C1 习题 6 6 绝对支持度是。

14、3 第一步 扫描所有事物 对每个候选计数 生成C1 C1 习题 6 6 绝对支持度是3 第二步 通过候选的支持度计数与最小支持度技术比较 确定L1 L1 C1 习题 6 6 绝对支持度是3 第三步 连接和剪枝 由L1产生候选C2 L1 C2 习题 6 6 绝对支持度是3 第四步 通过候选的支持度计数与最小支持度技术比较 确定L2 C2 L2 习题 6 6 绝对支持度是3 第五步 连接和剪枝 由L2产生候选C3 C3 L2 习题 6 6 绝对支持度是3 第六步 通过候选的支持度计数与最小支持度技术比较 确定L3 L3 C3 习题 6 6 绝对支持度是3 第七步 连接和剪枝 由L3产生候选C4 因。

15、为C4 因此算法终止 C4 L3 终止 习题 6 6 Apriori算法找出的所有频繁项集 L3 L2 L1 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 FP growth算法 数据库的都成扫描与Apriori算法相同 得到L1 再按支持度计数的递减序排序 得到L K 5 E 4 M 3 O 3 Y 3 N 2 D 1 扫描每个事物 按以上L的排序 从根节点开始 得到FP 树 习题 6 6 FP growth算法 数据库的都成扫描与Apriori算法相同 得到L1 。

16、再按支持度计数的递减序排序 得到L K 5 E 4 M 3 O 3 Y 3 扫描每个事物 按以上L的排序 从根节点开始 得到FP 树 习题 6 6 FP growth算法 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 效率比较 Apriori算法的计算过程必须对数据库作多次扫描 而FP 增长算法在构造过程中只需扫描一次数据库 再加上初始时为确定支持度递减排序的一次扫描 共计只需两次扫描 由于在Apriori算法中的自身连接过程产生候选项集 候选项集产生的计算代价非常高 而FP 增长算法不需产生任何候选项 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 b 列举所有与下面的原规则匹配的强关联规则 给出支持度s和置信度c 其中 X是代表顾客的变量 如 A B 等 习题 6 8 数据库有4个事务 设min sup 60 min conf 80 a 在item category粒度 例如 itemi可以是 Milk 对于下面的规则模板 。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值