《数据挖掘概念与技术》学习笔记-第二章

2.1 给出三个用于数据散布特征的常用统计度量,并讨论如何在大型数据库中有效地计算它们。

1.移动极差(Moving Range)
是指两个或多个连续样本值中最大值与最小值之差,这种差是按这样的方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算公用一个点的值。一般来说,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。
2.异众比率(Variation Ratio)
是指非众数值的次数之和在总次数中所占的比重。异众比率用于衡量一组以众数为分布中心的集中程度,即衡量众数达标一组数据一般水平的代表性。异众比率越小,说明数据的集中程度越高。
3.离散系数(Coefficient Variation)
是变异系数、极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比而得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称为标准差系数,即: V σ = σ x ˉ V_{σ}=\frac{σ}{\bar{x}} Vσ=xˉσ。离散系数越大,说明数据的离散程度越大。

2.2 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。

(a)该数据的均值是多少,中位数是什么
(b)该数据的众数是什么,讨论数据的模态
(c)该数据的中列数是多少
(d)粗略地找出该数据第一个四分位数(Q1)和第三个四分位数(Q3
(e)给出该数据的五数概括
(f)绘制该数据的盒图
(g)分位数-分位数图与分位数图有何不同

(a)均值是29.96,中位数是25
(b)众数是25和35,数据的模态是双峰的。
(c)中列数是 70 + 13 2 = 41.5 \frac{70+13}{2}=41.5 270+13=41.5
(d)Q1是第二个20,Q3是第四个35
(f) 采用R语言绘制的盒图如下:
在这里插入图片描述
(g)分位数图横轴为f值,竖轴为属性值,用以观察单个变量的数据分布;分位数-分位数图,即q-q图,横轴和竖轴分别是对某个变量不同观测集的值,用以观察从一个分布到另一个分布数据是否有漂移。

2.3 设给定的数据集已经分组到区间,这些区间和对应频率如下所示:

agefrequency
1~5200
6~15450
16~20300
21~501500
51~80700
81~11044
计算该数据的近似中位数。

中位数区间为21~50,则中位数区间下界为 L 1 = 21 , N = 3194 , ( Σ f r e q ) l = 950 , f r e q m e d i a n = 1500 , w i d t h = 30 L_{1}=21, N=3194, (\Sigma{freq})_{l}=950, freq_{median}=1500,width=30 L1=21,N=3194,(Σfreq)l=950,freqmedian=1500,width=30,根据插值计算方法,则有 m e d i a n = L 1 + ( N / 2 − ( Σ f r e q ) l f r e q m e d i a n ) w i d t h = 33.94 median=L_{1}+(\frac{N/2-(\Sigma{freq})_{l}}{freq_{median}})width=33.94 median=L1+(freqmedianN/2(Σfreq)l)width=33.94

2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:

age232327273941474950
%fat9.526.57.817.831.425.927.427.231.2
age525454565758586061
%fat34.642.528.833.430.234.132.941.235.7
(a)计算age和%fat的均值、中位数和标准差
(b)绘制age和%fat的盒图
(c)绘制基于这两个变量的散点图和q-q图

(a) a v g ( a g e ) ≈ 46.44 , a v g ( f a t ) ≈ 28.78 avg(age)\approx46.44, avg(fat)\approx28.78 avg(age)46.44,avg(fat)28.78
   m e d i a n ( a g e ) = 51 , m e d i a n ( f a t ) = 30.7 median(age)=51, median(fat)=30.7 median(age)=51,median(fat)=30.7
   σ ( a g e ) ≈ 13.22 , σ ( f a t ) ≈ 9.25 \sigma(age)\approx13.22, \sigma(fat)\approx9.25 σ(age)13.22,σ(fat)9.25
(b)
在这里插入图片描述
(c)散点图
在这里插入图片描述
  q-q图

2.5 简要概述如何计算被如下属性描述的对象的相异性:

(a)标称属性
(b)非对称的二元属性
(c)数值属性
(d)词频向量

(a)两个标称属性描述的对象 i i i j j j之间的相异性可以根据不匹配率来计算: d ( i , j ) = p − m p (1) d(i,j)=\frac{p-m}{p} \tag{1} d(i,j)=ppm(1)其中, m m m是匹配的数目(即 i i i j j j取值相同的属性数),而 p p p是刻画对象的属性总数。可以通过赋予 m m m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加 m m m的影响。
(b)二元属性的相异性通过列联表进行计算,其中,非对称的二元属性相异性计算,需要忽略负匹配数,即 d ( i , j ) = r + s q + r + s (2) d(i,j)=\frac{r+s}{q+r+s} \tag{2} d(i,j)=q+r+sr+s(2)式中的分母部分省略掉了负匹配数 t t t
(c)数值属性的相异性采用对象之间的距离进行描述。包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。其中欧几里得距离表示为: d ( i , j ) = ( x i 1 − x j 1 ) 2 + ( x i 2 − x j 2 ) 2 + ⋯ + ( x i p − x j p ) 2 (3) d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+\cdots+(x_{ip}-x_{jp})^2} \tag{3} d(i,j)=(xi1xj1)2+(xi2xj2)2++(xipxjp)2 (3)曼哈顿距离表示为: d ( i , j ) = ∣ x i 1 − x j 1 ∣ + ∣ x i 2 − x j 2 ∣ + ⋯ + ∣ x i p − x j p ∣ (4) d(i,j)=\lvert x_{i1}-x_{j1} \rvert+\lvert x_{i2}-x_{j2} \rvert+\cdots+\lvert x_{ip}-x_{jp} \rvert \tag{4} d(i,j)=xi1xj1+xi2xj2++xipxjp(4)闵可夫斯基距离,又称 L p L_{p} Lp范数, p p p h h h,表示为: d ( i , j ) = ∣ x i 1 − x j 1 ∣ h + ∣ x i 2 − x j 2 ∣ h + ⋯ + ∣ x i p − x j p ∣ h h (5) d(i,j)=\sqrt[h]{\lvert x_{i1}-x_{j1} \rvert^h+\lvert x_{i2}-x_{j2} \rvert^h+\cdots+\lvert x_{ip}-x_{jp} \rvert^h} \tag{5} d(i,j)=hxi1xj1h+xi2xj2h++xipxjph (5) h → ∞ h\rightarrow \infty h时,闵可夫斯基距离推广为上确界距离,又称 L m a x , L ∞ L_{max},L_\infty Lmax,L范数或切比雪夫距离或一致范数,表示为: d ( i , j ) = lim ⁡ h → ∞ ( ∑ f = 1 p ∣ x i f − x j f ∣ h ) 1 h = max ⁡ f p ∣ x i f − x j f ∣ (6) d(i,j)=\lim\limits_{h\rightarrow\infty}\Big(\sum\limits_{f=1}^p\lvert x_{if}-x_{jf}\rvert^h\Big)^{\frac{1}{h}}=\max\limits_f^p\lvert x_{if}-x_{jf}\rvert \tag{6} d(i,j)=hlim(f=1pxifxjfh)h1=fmaxpxifxjf(6)如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离表示为: d ( i , j ) = ω 1 ∣ x i 1 − x j 1 ∣ 2 + ω 2 ∣ x i 2 − x j 2 ∣ 2 + ⋯ + ω p ∣ x i p − x j p ∣ 2 (7) d(i,j)=\sqrt{\omega_1\lvert x_{i1}-x_{j1} \rvert^2+\omega_2\lvert x_{i2}-x_{j2} \rvert^2+\cdots+\omega_p\lvert x_{ip}-x_{jp} \rvert^2} \tag{7} d(i,j)=ω1xi1xj12+ω2xi2xj22++ωpxipxjp2 (7)
(d)计算词频向量的相似性,需要忽略0匹配的数值。可以采用余弦相似性度量,表示为: s i m ( x , y ) = x ⋅ y ∣ ∣ x ∣ ∣   ∣ ∣ y ∣ ∣ (8) sim(x,y)=\frac{x\cdot y}{\lvert\lvert x\rvert\rvert\ \lvert\lvert y\rvert\rvert} \tag{8} sim(x,y)=x yxy(8)其中, x x x y y y分别是各向量的欧几里得范数,即向量的长度。

2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。

(a)计算这两个对象之间的欧几里得距离
(b)计算这两个对象之间的曼哈顿距离
(c)使用p=3,计算这两个对象之间的闵可夫斯基距离
(d)计算这两个对象之间的上确界距离

(a)根据公式(3)可得欧几里得距离约为 6.708204 6.708204 6.708204
(b)根据公式(4)可得曼哈顿距离为11
(c)根据公式(5)可得闵可夫斯基距离约为6.153449
(d)根据公式(6)可得上确界距离为6

2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。

插值法

2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:

A1A2
x11.51.7
x221.9
x31.61.8
x41.21.5
x51.51.0
(a)把该数据看做二维数据点。给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
(b)规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。

(a)欧几里得距离排序:

x
x10.1414214
x40.2236068
x30.2828427
x50.6082763
x20.6708204

曼哈顿距离排序:

x
x10.2
x40.3
x30.4
x50.7
x20.9

上确界距离排序:

x
x10.1
x40.2
x30.2
x50.6
x20.6

余弦相似性排序:

x
x10.0293405394190871
x40.0548055882352941
x30.05524271484375
x20.114866506849315
x50.164399

(b)规格化的数据表

A1A2
x10.66162160.7498379
x20.72499940.6887495
x30.66436380.7474093
x40.62469500.7808688
x50.83205030.5547002

欧几里得距离排序

x
x11.126045416
x31.126086778
x41.127862437
x21.134020859
x51.189629584

致谢

感谢广大网友!
主要参考内容:
[1]https://blog.csdn.net/pipisorry/article/details/72820982
[2]https://blog.csdn.net/fjssharpsword/article/details/74911180
[3]https://blog.csdn.net/qq_24336773/article/details/80676059
[4]https://blog.csdn.net/xxzhangx/article/details/53153821

  • 6
    点赞
  • 72
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值