数据挖掘第二章认识数据

本章探讨了数据挖掘中的统计概念,重点介绍了五数概括,包括最小值、第一四分位数、中位数、第三四分位数和最大值。此外,还讨论了描述数据散布的统计度量,如几何平均数、全距中点和变异系数。通过实例分析了数据的均值、中位数、众数、中列数以及四分位数,并解释了如何在大数据集中有效地计算这些指标。最后,提到了计算标称属性、非对称二元属性、数值属性和词频向量相异性的方法,以及欧几里得距离、曼哈顿距离和闵可夫斯基距离的应用。
摘要由CSDN通过智能技术生成

数据挖掘概念与技术第三版 课后答案第二章

1.五数概括的概念。

由中位数(Q2)、四分位数 Q1 和 Q3、最小和最大观测值组成,按次序:Minimum,Q1,Median,Q3,Maximum写出。

2.在给出三个用于* 数据散布 *特征的常用统计度量,并讨论如何在大数据库中有效的计算它们。

(1)描述数据集中趋势的有:
几何平均数(geometric mean)是指n个观察值连乘积的n次方根。
截尾平均数:忽略特定比例或特定数值之外的极端值后所得的平均数。例:四分平均数正是忽略25%前及75%后的资料后所得的算数平均数。
全距中点:最大值与最小值的算数平均数
极端值调整平均数:以最接近的观测值取代特定比例的极端值后取得的算数平均数。
(2)描述数据离散趋势:
变异系数(Coefficient of Variation,CV):变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度: C V = 标 准 差 均 值 CV = \frac{标准差}{均值} \quad CV=
3.假设分析的数据属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,35,36,40,45,46,52,70.
(a).改数据的均值是多少?中位数是什么?
均值:29.22 中位数:25
(b)该数据的众数是什么?讨论数据的模态(即二模,三模等)。
众数:25和35 该数据有两个众数即两个峰态,故是二模
©改数据的中列数是多少?
中列数:指样本中极大值与极小值的平均。有时作为对称分布的均值的粗略估计 (13+70)/2 =41.5
(d)你能(粗略的)找出该数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
第一个四分位数为:⌈27/4⌉=7处,Q1=20,第三个四分位数为:7∗3=21处,Q3=35。
(e)给出该数据的五数概括。
附:四分位数计算方法:下四分位数的位置Q1=(n+1)*0.25
中位数的位置Q2=(n+1)*0.5
上四分位数的位置Q3=(n+1)*0.75

Q1位置:(27+1)/4 = 7 Q1 = 20
Q2位置=中位数位置=(27+1)/2=14 Q2 = 25
Q3位置:(27+1)*0.75=21 Q3 = 35
min = 13 max = 70
(f)绘制该数据的盒图。
python绘制盒图

import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']#指定默认字体
data = {
   'age':[13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70]}
df = pd.DataFrame(data)#读取数据
df.plot.box(title="年龄数据箱型图")#设置标题

plt.grid(linestyle="--", alpha=0.3)#绘制箱型图
plt.show()

箱型图
在这里插入图片描述
(g).分位数-分位数图与分位数图有何不同?
1.分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。
2.分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。
4.设给定数据集已经分组到区间,计算该数据的近似中位数。
由于该题目并没有说明某一个年龄对应的人数有多少个,所以一种解题思路就是取每一个年龄区间的中位数乘以其人数,然后再除以总的人数从而计算所有数据的中位数。
m e d i n a = 3 × 200 + 10 × 450 + 18 × 300 + 35 × 1500 + 65 × 700 + 95 × 44 200 + 450 + 300 + 1500 + 700 + 44 ≈ 35 medina = \frac{3×200+10×450+18×300+35×1500+65×700+95×44}{200+450+300+1500+700+44} \quad ≈35 medina=200+450&#

  • 12
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值