数据挖掘概念与技术第三版 课后答案第二章
1.五数概括的概念。
由中位数(Q2)、四分位数 Q1 和 Q3、最小和最大观测值组成,按次序:Minimum,Q1,Median,Q3,Maximum写出。
2.在给出三个用于* 数据散布 *特征的常用统计度量,并讨论如何在大数据库中有效的计算它们。
(1)描述数据集中趋势的有:
几何平均数(geometric mean)是指n个观察值连乘积的n次方根。
截尾平均数:忽略特定比例或特定数值之外的极端值后所得的平均数。例:四分平均数正是忽略25%前及75%后的资料后所得的算数平均数。
全距中点:最大值与最小值的算数平均数
极端值调整平均数:以最接近的观测值取代特定比例的极端值后取得的算数平均数。
(2)描述数据离散趋势:
变异系数(Coefficient of Variation,CV):变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度: C V = 标 准 差 均 值 CV = \frac{标准差}{均值} \quad CV=均值标准差
3.假设分析的数据属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,35,36,40,45,46,52,70.
(a).改数据的均值是多少?中位数是什么?
均值:29.22 中位数:25
(b)该数据的众数是什么?讨论数据的模态(即二模,三模等)。
众数:25和35 该数据有两个众数即两个峰态,故是二模
©改数据的中列数是多少?
中列数:指样本中极大值与极小值的平均。有时作为对称分布的均值的粗略估计 (13+70)/2 =41.5
(d)你能(粗略的)找出该数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
第一个四分位数为:⌈27/4⌉=7处,Q1=20,第三个四分位数为:7∗3=21处,Q3=35。
(e)给出该数据的五数概括。
附:四分位数计算方法:下四分位数的位置Q1=(n+1)*0.25
中位数的位置Q2=(n+1)*0.5
上四分位数的位置Q3=(n+1)*0.75
Q1位置:(27+1)/4 = 7 Q1 = 20
Q2位置=中位数位置=(27+1)/2=14 Q2 = 25
Q3位置:(27+1)*0.75=21 Q3 = 35
min = 13 max = 70
(f)绘制该数据的盒图。
python绘制盒图
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']#指定默认字体
data = {
'age':[13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70]}
df = pd.DataFrame(data)#读取数据
df.plot.box(title="年龄数据箱型图")#设置标题
plt.grid(linestyle="--", alpha=0.3)#绘制箱型图
plt.show()
箱型图
(g).分位数-分位数图与分位数图有何不同?
1.分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。
2.分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。
4.设给定数据集已经分组到区间,计算该数据的近似中位数。
由于该题目并没有说明某一个年龄对应的人数有多少个,所以一种解题思路就是取每一个年龄区间的中位数乘以其人数,然后再除以总的人数从而计算所有数据的中位数。
m e d i n a = 3 × 200 + 10 × 450 + 18 × 300 + 35 × 1500 + 65 × 700 + 95 × 44 200 + 450 + 300 + 1500 + 700 + 44 ≈ 35 medina = \frac{3×200+10×450+18×300+35×1500+65×700+95×44}{200+450+300+1500+700+44} \quad ≈35 medina=200+450&#