第二章答案
该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至majiecqu@126.com。
2.1 再给三个用于数据散布特征的常用统计量(即未在本章讨论过的),并讨论如何在大型数据库中有效的计算它们。
- 异众比率(variation ratio):用 Vr 表示,其定义为:
Vr=∑fi−fm∑fi=1−fm∑fi,其中 ∑fi 表示变量值的总频数, ∑fm 表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据与数值数据也可以进行计算。
- 标准分数(standard score):变量值与其平均数的差除以标准差后的值。设标准分数为 z ,则有
z=xi−x¯s - 相对离散程度:离散系数(coefficient of variation):一组数据的标准差与其相应的平均数之比称为离散系数,也称变异系数。为了消除变量值水平高低(即两个相同类型的属性其值的分布差别特别大,比如一个为几百万,而另一个为几万或几十万)和计量单位不同对离散程度测度值的影响,需要计算离散系数,其计算公式为:
vx=sx¯
2.2 假设所分析的的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
该数的均值是多少?中位数是什么?
该数的均值为29.963,中位数是25。该数据的众数是什么?讨论数据的模态(即二模、三模等)。
该数据的众数为25和35,即该数据是一个双峰的分布,即二模。该数据的中列数是多少?
该数据的中列数为(70+13)/2=41.5。你能粗略的找出该数据的第一个四分位数( Q1 )和第三个四分位数( Q3 )吗?
第一个四分位数为: ⌈274⌉=7 处, Q1=20 ,第三个四分位数为: 7∗3=21处 , Q3=35 。给出该数据的五数概括。
根据以上,得到了最小观测值、 Q1、Q2、Q3