本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式
主要内容
系统聚类法单调性:定义与表达式,实际含义
定义法证明单调性:由定义证明最长距离法、最短距离法的单调性
公式法证明单调性:由距离递推公式证明类平均法、可变类平均法、可变法、Ward法的单调性
重心法的距离递推公式:证明方法a与b
Ward法的距离递推公式:基于重心法距离递推公式的证明
空间的浓缩与扩张:矩阵大小的定义,聚类方法的浓缩与扩张的定义
聚类案例:离差平方和法:基于欧式距离的离差平方和法确定聚类数k
系统聚类法的比较:聚类方法的收缩与扩张
系统聚类法的性质
1、 单调性
在聚类分析过程中,并类距离分别为
d
k
(
k
=
1
,
2
,
3
,
⋯
)
d_k(k=1,2,3,\cdots)
dk(k=1,2,3,⋯),若满⾜:
d
1
≤
d
2
≤
⋯
≤
d
k
≤
d
k
+
1
≤
⋯
d_1\le d_2\le\cdots\le d_k\le d_{k+1}\le\cdots
d1≤d2≤⋯≤dk≤dk+1≤⋯
(依次递增)则称该聚类⽅法具有单调性。
除重⼼法和中间距离法外,其他系统聚类法均满⾜单调性条件。
下面是并类距离的通用表达公式,加入了惩罚因子:
d
k
γ
2
=
α
p
d
k
p
2
+
α
q
d
k
q
2
+
β
d
p
q
2
+
γ
∣
d
k
p
2
−
d
k
q
2
∣
d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}+\gamma|d^2_{kp}-d^2_{kq}|
dkγ2=αpdkp2+αqdkq2+βdpq2+γ∣dkp2−dkq2∣
可以利⽤距离平⽅的递推公式可证明:类平均法、可变类平均法、可变法、Ward法的单调性
[例题]从定义直接证明最⻓和最短距离法的单调性:
数学公式就不写了,本身用最短距离法产生并类,每次都是取最短距离的两个类进行合并,因此每次产生的并类距离都是依次递增的。
[例题]利⽤距离平⽅的递推公式可证明:类平均法、可变类平均法、可变法、Ward法的单调性
上面四类方法的
γ
=
0
\gamma=0
γ=0,因此
d
k
γ
2
=
α
p
d
k
p
2
+
α
q
d
k
q
2
+
β
d
p
q
2
d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}
dkγ2=αpdkp2+αqdkq2+βdpq2
当系数满足:
α
p
≥
0
,
α
q
≥
0
,
α
p
+
α
q
+
β
≥
1
\alpha_p\ge0,\alpha_q\ge0,\alpha_p+\alpha_q+\beta \ge1
αp≥0,αq≥0,αp+αq+β≥1
则可以为上上式找出一个下界,因为:
d
k
p
2
≥
d
p
q
2
,
d
k
q
2
≥
d
p
q
2
d^2_{kp}\ge d^2_{pq},d^2_{kq}\ge d^2_{pq}
dkp2≥dpq2,dkq2≥dpq2,(第L步选择了pq合并,因此pq并类距离最小)则:
d
k
γ
2
=
α
p
d
k
p
2
+
α
q
d
k
q
2
+
β
d
p
q
2
≥
(
α
p
+
α
q
+
β
)
d
p
q
2
d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}\ge(\alpha_p+\alpha_q+\beta)d^2_{pq}
dkγ2=αpdkp2+αqdkq2+βdpq2≥(αp+αq+β)dpq2
由条件:
α
p
+
α
q
+
β
≥
1
\alpha_p+\alpha_q+\beta \ge1
αp+αq+β≥1
上面可以继续缩放:
d
k
γ
2
=
α
p
d
k
p
2
+
α
q
d
k
q
2
+
β
d
p
q
2
≥
(
α
p
+
α
q
+
β
)
d
p
q
2
≥
d
p
q
2
d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}\ge(\alpha_p+\alpha_q+\beta)d^2_{pq}\ge d^2_{pq}
dkγ2=αpdkp2+αqdkq2+βdpq2≥(αp+αq+β)dpq2≥dpq2
也就得到并类距离满足:
D
L
+
1
≥
D
L
D_{L+1}\ge D_L
DL+1≥DL
有了这个结论,现在就是要把四个方法的系数带进来,并证明四个方法的系数满足
α
p
≥
0
,
α
q
≥
0
,
α
p
+
α
q
+
β
≥
1
\alpha_p\ge0,\alpha_q\ge0,\alpha_p+\alpha_q+\beta \ge1
αp≥0,αq≥0,αp+αq+β≥1
具体步骤省略。
2、 空间的浓缩和扩张
(1)定义矩阵大小:
设A和B为同阶矩阵,若
A
A
A的每⼀个元素不小于
B
B
B中对应位置的元素,则记作
A
≥
B
A≥B
A≥B。
(2)聚类⽅法浓缩与扩张:
设两种系统聚类法
A
A
A和
B
B
B,在第
i
i
i步的距离矩阵分别为
A
i
A_i
Ai和
B
i
(
i
=
1
,
2
,
3
…
)
B_i(i=1,2,3…)
Bi(i=1,2,3…),若$A_i>B_i
,
则
称
⽅
法
,则称⽅法
,则称⽅法A
⽐
⽅
法
⽐⽅法
⽐⽅法B
使
空
间
扩
张
,
或
⽅
法
使空间扩张,或⽅法
使空间扩张,或⽅法B
⽐
⽅
法
⽐⽅法
⽐⽅法A$浓缩。
[例题]
已知5个样品,对每样品考察特定指标得数据:1,2,5,7,10。试基于欧⽒距离,运⽤离差平⽅和法求5个样品分为k类(
k
=
5
,
4
,
3
,
2
,
1
k=5,4,3,2,1
k=5,4,3,2,1)的分类法
b
k
b_k
bk 。
这里用欧氏距离计算两个样本的距离是这样算的:
2
↔
5
,
(
5
−
2
)
2
2
=
9
2
1
↔
7
,
(
7
−
1
)
2
2
=
36
2
⋯
2\leftrightarrow 5,\cfrac{(5-2)^2}{2}=\cfrac{9}{2}\\ 1\leftrightarrow 7,\cfrac{(7-1)^2}{2}=\cfrac{36}{2}\\ \cdots
2↔5,2(5−2)2=291↔7,2(7−1)2=236⋯
因此可以写成距离矩阵:
D
(
1
)
=
1
2
[
0
1
16
36
81
1
0
9
25
64
16
9
0
4
25
36
25
4
0
9
81
64
25
9
0
]
D^{(1)}=\cfrac{1}{2}\begin{bmatrix} 0 & 1 & 16& 36 &81 \\ 1 & 0& 9& 25& 64\\ 16& 9 & 0 & 4 & 25\\ 36 &25 &4 & 0&9 \\ 81 & 64 & 25 & 9 & 0 \end{bmatrix}
D(1)=21⎣⎢⎢⎢⎢⎡0116368110925641690425362540981642590⎦⎥⎥⎥⎥⎤
可以看到这里面1和2距离最小,因此加入集合:
C
L
4
=
{
1
,
2
}
,
D
1
=
(
2
−
1
)
2
2
=
0.707
CL_4=\{1,2\},D_1=\sqrt{\cfrac{(2-1)^2}{2}}=0.707
CL4={1,2},D1=2(2−1)2=0.707
然后算新类到样本:5的距离:
D
r
k
2
=
n
k
+
n
p
n
r
+
n
k
D
p
k
2
+
n
k
+
n
q
n
r
+
n
k
D
q
k
2
+
n
k
n
r
+
n
k
D
p
q
2
D^2_{rk}=\cfrac{n_k+n_p}{n_r+n_k}D^2_{pk}+\cfrac{n_k+n_q}{n_r+n_k}D^2_{qk}+\cfrac{n_k}{n_r+n_k}D^2_{pq}
Drk2=nr+nknk+npDpk2+nr+nknk+nqDqk2+nr+nknkDpq2
这里新类有2个元素,
n
r
=
2
n_r=2
nr=2,样本5是一个元素,因此
n
k
=
1
n_k=1
nk=1,分别对新类里面的两个元素有:
n
p
=
1
,
n
q
=
1
n_p=1,n_q=1
np=1,nq=1,然后
D
p
k
2
=
1
↔
5
,
(
5
−
1
)
2
2
=
16
2
D^2_{pk}=1\leftrightarrow 5,\cfrac{(5-1)^2}{2}=\cfrac{16}{2}
Dpk2=1↔5,2(5−1)2=216
D
1
k
2
=
2
↔
5
,
(
5
−
2
)
2
2
=
9
2
D^2_{1k}=2\leftrightarrow 5,\cfrac{(5-2)^2}{2}=\cfrac{9}{2}
D1k2=2↔5,2(5−2)2=29
带入上面的公式:
D
r
k
2
=
49
6
D^2_{rk}=\cfrac{49}{6}
Drk2=649
同理可以计算新类到其他两个样本的距离为:
121
6
,
289
6
\cfrac{121}{6},\cfrac{289}{6}
6121,6289,因此得到
D
(
2
)
=
[
0
49
6
121
6
289
6
49
6
0
2
12.5
121
6
2
0
4.5
289
6
12.5
4.5
0
]
D^{(2)}=\begin{bmatrix} 0 & \cfrac{49}{6} & \cfrac{121}{6}& \cfrac{289}{6} \\ \cfrac{49}{6} & 0& 2& 12.5\\ \cfrac{121}{6}& 2 & 0 & 4.5 \\ \cfrac{289}{6} &12.5&4.5 & 0 \end{bmatrix}
D(2)=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡0649612162896490212.56121204.5628912.54.50⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤
从矩阵可以得到新类为:
C
L
3
=
{
5
,
7
}
,
D
2
=
1.414
CL_3=\{5,7\},D_2=1.414
CL3={5,7},D2=1.414
再按公式算
C
L
3
,
C
L
4
CL_3,CL_4
CL3,CL4类间距的时候,
n
r
=
2
,
n
k
=
2
n_r=2,n_k=2
nr=2,nk=2,带入公式后:
1
+
2
2
+
2
49
6
+
1
+
2
2
+
2
121
6
−
2
2
+
2
2
=
81
4
\cfrac{1+2}{2+2}\cfrac{49}{6} +\cfrac{1+2}{2+2}\cfrac{121}{6}-\cfrac{2}{2+2}2=\cfrac{81}{4}
2+21+2649+2+21+26121−2+222=481
按公式算
C
L
3
CL_3
CL3到样本:10的类间距:
1
+
1
2
+
1
12.5
+
1
+
1
2
+
1
4.5
−
1
2
+
1
2
=
32
3
\cfrac{1+1}{2+1}12.5+\cfrac{1+1}{2+1}4.5-\cfrac{1}{2+1}2=\cfrac{32}{3}
2+11+112.5+2+11+14.5−2+112=332
这个时候得到第三个距离矩阵:
D
(
3
)
=
C
L
3
C
L
4
10
[
0
81
4
32
3
81
4
0
289
2
32
3
289
2
0
]
D^{(3)}=\begin{matrix} CL_3\\ CL_4\\ 10\end{matrix}\begin{bmatrix} 0 & \cfrac{81}{4}& \cfrac{32}{3}\\ \cfrac{81}{4} & 0 &\cfrac{289}{2} \\ \cfrac{32}{3} & \cfrac{289}{2} & 0 \end{bmatrix}
D(3)=CL3CL410⎣⎢⎢⎢⎢⎢⎡04813324810228933222890⎦⎥⎥⎥⎥⎥⎤
这里可以看到
32
3
\cfrac{32}{3}
332最小,因此:
C
L
2
=
{
10
,
C
L
3
}
,
D
3
=
32
3
=
3.266
CL_2=\{10,CL_3\},D_3=\sqrt{\cfrac{32}{3} }=3.266
CL2={10,CL3},D3=332=3.266
再次计算
C
L
2
,
C
L
4
CL_2,CL_4
CL2,CL4类间距,此时
n
r
=
3
,
n
k
=
2
n_r=3,n_k=2
nr=3,nk=2,带入公式:
1
+
2
3
+
2
289
6
+
2
+
2
3
+
2
81
4
−
2
3
+
2
32
3
=
245
6
\cfrac{1+2}{3+2}\cfrac{289}{6}+\cfrac{2+2}{3+2}\cfrac{81}{4}-\cfrac{2}{3+2}\cfrac{32}{3}=\cfrac{245}{6}
3+21+26289+3+22+2481−3+22332=6245
得到第四个距离矩阵:
D
(
4
)
=
C
L
2
C
L
4
[
0
245
6
245
6
0
]
D^{(4)}=\begin{matrix} CL_2\\ CL_4 \end{matrix}\begin{bmatrix} 0 & \cfrac{245}{6}\\ \cfrac{245}{6} & 0 \end{bmatrix}
D(4)=CL2CL4⎣⎢⎡0624562450⎦⎥⎤
得到
D
4
=
245
6
=
6.39
D_4=\sqrt{\cfrac{245}{6}}=6.39
D4=6245=6.39
完毕,这里我们看到:
D
1
<
D
2
<
D
3
<
D
4
D_1<D_2<D_3<D_4
D1<D2<D3<D4,空间距离递增。
系统聚类法的比较
D
(
最
短
距
离
法
)
≤
D
(
类
平
均
法
)
D
(
重
心
法
)
≤
D
(
类
平
均
法
)
D
(
最
长
距
离
法
)
≥
D
(
类
平
均
法
)
D_{(最短距离法)}\le D_{(类平均法)}\\ D_{(重心法)}\le D_{(类平均法)}\\ D_{(最长距离法)}\ge D_{(类平均法)}
D(最短距离法)≤D(类平均法)D(重心法)≤D(类平均法)D(最长距离法)≥D(类平均法)
当
0
<
β
<
1
,
D
(
可
变
类
平
均
法
)
≤
D
(
类
平
均
法
)
当0<\beta<1,D_{(可变类平均法)}\le D_{(类平均法)}
当0<β<1,D(可变类平均法)≤D(类平均法)
当
β
<
0
,
D
(
可
变
类
平
均
法
)
≥
D
(
类
平
均
法
)
当\beta<0,D_{(可变类平均法)}\ge D_{(类平均法)}
当β<0,D(可变类平均法)≥D(类平均法)
2448

被折叠的 条评论
为什么被折叠?



