数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第二章课后习题答案

第二章答案


该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至majiecqu@126.com。

2.1 再给三个用于数据散布特征的常用统计量(即未在本章讨论过的),并讨论如何在大型数据库中有效的计算它们。

  1. 异众比率(variation ratio):用 Vr 表示,其定义为:
    Vr=fifmfi=1fmfi
    ,其中 fi 表示变量值的总频数, fm 表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据与数值数据也可以进行计算。
  2. 标准分数(standard score):变量值与其平均数的差除以标准差后的值。设标准分数为 z ,则有
    z=xix¯s
    标准分数给出了一组数据中各数值的相对位置。实际上, z 分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据的分布形状。
  3. 相对离散程度:离散系数(coefficient of variation):一组数据的标准差与其相应的平均数之比称为离散系数,也称变异系数。为了消除变量值水平高低(即两个相同类型的属性其值的分布差别特别大,比如一个为几百万,而另一个为几万或几十万)和计量单位不同对离散程度测度值的影响,需要计算离散系数,其计算公式为:
    vx=sx¯
    离散系数的作用主要是用于比较不同样本的离散程度。离散系数越大,说明离散程度越大。离散系数越小,说明离散程度就越小(当平均数趋于零时,离散系数就趋于无穷大,此时需要按照实际情况进行解释)。

2.2 假设所分析的的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.

  1. 该数的均值是多少?中位数是什么?
    该数的均值为29.963,中位数是25。

  2. 该数据的众数是什么?讨论数据的模态(即二模、三模等)。
    该数据的众数为25和35,即该数据是一个双峰的分布,即二模。

  3. 该数据的中列数是多少?
    该数据的中列数为(70+13)/2=41.5。

  4. 你能粗略的找出该数据的第一个四分位数( Q1 )和第三个四分位数( Q3 )吗?
    第一个四分位数为: 274=7 处, Q1=20 ,第三个四分位数为: 73=21 Q3=35

  5. 给出该数据的五数概括。
    根据以上,得到了最小观测值、 Q1Q2Q3

  • 27
    点赞
  • 107
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值