数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第三章课后习题答案

数据挖掘概数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第三章课后习题答案3.1 数据质量可以从多方面评估,包括准确性、完整性、一致性问题……
摘要由CSDN通过智能技术生成

第三章答案


该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至majiecqu@126.com。

3.1 数据质量可以从多方面评估,包括准确性、完整性、一致性问题……
准确性:对于一些需要进行精准营销的商品,比如蛋糕店的生日蛋糕、孕妇必备物品等,以上这些商品则需要数据的准确性。
完整性:如果要对某宝、某东或者某宁的买家信息进行一个数据挖掘,从而用来营销其他东西,比如要对地址进行挖掘,此时详细、完整的地址数据则是一个必备的特性。
一致性问题:由于某些不可抗因素而导致的数据不一致,比如技术问题,在并发量大的情况下,记录数据时出现问题;或者某些数据值是一样的,然而在不同的数据库中其命名却不一样;这些不一致性问题在数据挖掘时则会影响挖掘的结果。
数据质量的其他两个尺度:时效性和可信性。

3.2 在现实世界的数据中,某些属性……
解决缺失值有如下方法:

  • 忽略该元组;
  • 人工填写缺失值;
  • 使用一个全局常量填充缺失值;
  • 使用属性的中心度量(如均值或中位数)填充缺失值;
  • 使用与给定元组属同一类的所有样本的属性均值或者中位数;
  • 使用回归、贝叶斯方法或者决策树与对缺失值进行预测。

3.3 在习题2.2中,属性age包括如下值……

(a) 使用深度为3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对给定数据的效果。
首先将以上数据划分为深度为3的箱:(13,15,16,16,19,20,20,21,22),(22,25,25,25,25,30,33,33,35),(35,35,35,36,40,45,46,52,70);其次,用箱均值光滑:(18,18,18,18,18,18,18,18,18), (28,28,28,28,28,28,28,28,28), (43.7,43.7,43.7,43.7,43.7,43.7,43.7,43.7,43.7)。对于给定数据,该方法虽然在一定程度上光滑了噪声数据,但是由于箱深度太小,将数据的分布特征也抹去了。

(b) 如何确定该数据中的离群点?
可以将以上数据看作到0点的距离,然后通过聚类方法识别以上数据中的离群点。

(c) 还有什么其他方法可以用来光滑数据
可以用回归、聚类等来检测离群点。

3.4 讨论数据集成需要考虑的问题。
在数据集成时,需要考虑诸如实体识别、数据冗余、以及元组的重复等问题。

3.5 如下规范化方法的值域是什么?

  • 最小最大规范化。
    [new_minA,new_maxA]

  • z 分数规范化。
    [vminA¯σA,vmaxA¯σA]

  • z 分数规范化,使用绝对偏差而不是标准差。
    [v

  • 23
    点赞
  • 96
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值