isoData算法整理常用算法聚类算法 kmeans算法

最新推荐文章于 2023-01-10 10:44:40 发布

_啊哈

最新推荐文章于 2023-01-10 10:44:40 发布

阅读量3.5k

点赞数

分类专栏：常用算法

常用算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1. 与K-均值算法的比较

–K-均值算法通常适合于分类数目已知的聚类，而ISODATA算法则更加灵活；

–从算法角度看， ISODATA算法与K-均值算法相似，聚类中心都是通过样本均值的迭代运算来决定的；

–ISODATA算法加入了一些试探步骤，并且可以结合成人机交互的结构，使其能利用中间结果所取得的经验更好地进行分类。

2. ISODATA算法基本步骤和思路

（1）选择某些初始值。可选不同的参数指标，也可在迭代过程中人为修改，以将N个模式样本按指标分配到各个聚类中心中去。

（2）计算各类中诸样本的距离指标函数。

（3）~（5）按给定的要求，将前一次获得的聚类集进行分裂和合并处理（（4）为分裂处理，（5）为合并处理），从而获得新的聚类中心。

（6）重新进行迭代运算，计算各项指标，判断聚类结果是否符合要求。经过多次迭代后，若结果收敛，则运算结束。

3. ISODATA算法流程图：

4.ISODATA算法

第一步：输入 N 个模式样本 {xi,i=1,2,…,N}

预选 Nc 个初始聚类中心 {z1,z2,…zNc} ，它可以不等于所要求的聚类中心的数目，其初始位置可以从样本中任意选取。

预选： K = 预期的聚类中心数目；

θN = 每一聚类域中最少的样本数目，若少于此数即不作为一个独立的聚类；

θS = 一个聚类域中样本距离分布的标准差；

θc = 两个聚类中心间的最小距离，若小于此数，两个聚类需进行合并；

L = 在一次迭代运算中可以合并的聚类中心的最多对数；

I = 迭代运算的次数。

第二步：将 N 个模式样本分给最近的聚类 Sj ，假若 Dj=min{∥x−zi∥,i=1,2,⋯Nc}

，即 ||x−zj|| 的距离最小，则 x∈Sj 。

第三步：如果 Sj 中的样本数目S_j<θ_N，则取消该样本子集，此时N_c减去1。

（以上各步对应基本步骤（1））

第四步：修正各聚类中心

z j = 1 N j \sum x \in S j x, j = 1, 2, \dots, N c

第五步：计算各聚类域S_j中模式样本与各聚类中心间的平均距离

D ¯ j = 1 N j \sum x \in S j ∥ x - z j ∥, j = 1, 2, \dots, N c

第六步：计算全部模式样本和其对应聚类中心的总平均距离

D ¯ = 1 N \sum j = 1 N N j D ¯ j

（以上各步对应基本步骤（2））

第七步：判别分裂、合并及迭代运算

若迭代运算次数已达到I次，即最后一次迭代，则置θ_c =0，转至第十一步。
若 Nc≤K2
，即聚类中心的数目小于或等于规定值的一半，则转至第八步，对已有聚类进行分裂处理。
若迭代运算的次数是偶数次，或 Nc≥2K
，不进行分裂处理，转至第十一步；否则（即既不是偶数次迭代，又不满足 Nc≥2K ），转至第八步，进行分裂处理。

（以上对应基本步骤（3））

第八步：计算每个聚类中样本距离的标准差向量

σ j = (σ 1 j, σ 2 j, \dots, σ n j) T

其中向量的各个分量为

σ i j = 1 N j \sum k = 1 N j (x i k - z i j) 2 - - - - - - - - - - - - - - -  ⎷  

式中，i = 1, 2, …, n为样本特征向量的维数，j = 1, 2, …, N_c为聚类数，N_j为S_j中的样本个数。

第九步：求每一标准差向量{σ_j, j = 1, 2, …, N_c}中的最大分量，以{σ_jmax, j = 1, 2, …, N_c}代表。

第十步：在任一最大分量集{σ_jmax, j = 1, 2, …, N_c}中，若有σ_jmax>θ_S ，同时又满足如下两个条件之一：

D¯j>D¯ 和N_j > 2(θ_N + 1)，即S_j中样本总数超过规定值一倍以上，
Nc≤K2

则将z_j 分裂为两个新的聚类中心和，且N_c加1。中对应于σ_jmax的分量加上kσ_jmax，其中；中对应于σ_jmax的分量减去kσ_jmax。

如果本步骤完成了分裂运算，则转至第二步，否则继续。

（以上对应基本步骤（4）进行分裂处理）

第十一步：计算全部聚类中心的距离

D i j = | | z i - z j | | ， i = 1, 2, \dots, N c - 1 ， j = i + 1, \dots, N c

第十二步：比较D_ij 与θ_c 的值，将D_ij <θ_c 的值按最小距离次序递增排列，即

{D i 1 j 1, D i 2 j 2, \dots, D i L j L}

式中 Di1j1<Di2j2<…<DiLjL 。

第十三步：将距离为 Dikjk 的两个聚类中心 Zik 和 Zjk 合并，得新的中心为：

z * k = 1 N i k + N j k [N i k z i k + N j k z j k], k = 1, 2, \dots, L

式中，被合并的两个聚类中心向量分别以其聚类域内的样本数加权，使 Z∗k 为真正的平均向量。

（以上对应基本步骤（5）进行合并处理）

第十四步：如果是最后一次迭代运算（即第I次），则算法结束；否则，若需要操作者改变输入参数，转至第一步；若输入参数不变，转至第二步。

在本步运算中，迭代运算的次数每次应加1。

[算法结束]

5.例子：试用ISODATA算法对如下模式分布进行聚类分析：

{x 1 (0, 0), x 2 (3, 8), x 3 (2, 2), x 4 (1, 1), x 5 (5, 3), x 6 (4, 8), x 7 (6, 3), x 8 (5, 4), x 9 (6, 4), x 10 (7, 5)}

我们可以知道，N=10，n=2。假设取初始值 Nc=1 ，z₁=x₁=(0 0)^T，则运算步骤如下：

（1）设置控制参数

取K=3，θ_N=1，θ_S=1，θ_c=4，L=1，I=4

（2）按最小距离原则将模式集（xi）中每个模式分到某一类中。

由于此时只有一个聚类中心，因此S₁={x₁, x₂, …, x₁₀}，N₁=10

（3）因N₁>θ_N ，无子集可抛

（4）修改聚类中心

z 1 = 1 N 1 \sum x \in S 1 x = (3.9 3.8)

（5）计算模式样本与聚类中心间的平均距离 D¯1

D ¯ 1 = 1 N 1 \sum x \in S 1 ∥ x - z 1 ∥ = 3.0749

（6）计算全部模式样本和其对应聚类中心的总平均距离

D ¯ = D ¯ 1 = 3.0749

（7）因不是最后一次迭代，且 Nc<K/2 ，进入（8）

（8）计算S₁中的标准差向量

σ 1 = (2.2113 2.5219)

（9） σ1max 中的最大分量是2.5219，因此 σ1max=2.5219 。

（10）因 σ1max>θs 且 Nc<K2 ，可将z₁分裂成两个新的聚类。设 rj=0.5σ1max≈1.261 .则

z + 1 = (3.9 5.061), z - 1 = (3.9 2.539)

为方便起见，将 z+1 和 z−1 表示为z₁和z₂，N_c加1 ， Nc=2 .

（11）重新进行分类

样本点	特征值		到z1的距离	到z2的距离	聚类结果
X1	0	0	6.3893	4.6537	S2
X2	3	8	3.0737	5.5347	S1
X3	2	2	3.6027	1.975	S2
X4	1	1	4.9902	3.2831	S2
X5	5	3	2.3362	1.1927	S2
X6	4	8	2.9407	5.4619	S1
X7	6	3	2.9424	2.15	S2
X8	5	4	1.5283	1.8288	S1
X9	6	4	2.3528	2.5582	S1
X10	7	5	3.1006	3.9581	S1

S 1 = {x 2, x 6, x 8, x 9, x 10}, N 1 = 5

S 2 = {x 1, x 3, x 4, x 5, x 7}, N 2 = 5

（12）因N₁>θ_N 且N₂>θ_N，无子集可抛。

（13）修改聚类中心

z 1 = 1 N 1 \sum x \in S 1 x = (5 5.8)

z 2 = 1 N 2 \sum x \in S 2 x = (2.8 1.8)

（14）计算模式样本与聚类中心间的平均距离 D¯j,j=1,2

D ¯ 1 = 1 N 1 \sum x \in S 1 ∥ x - z 1 ∥ = 2 .2806

D ¯ 2 = 1 N 2 \sum x \in S 2 ∥ x - z 2 ∥ = 2 .4093

（15）计算全部模式样本和其对应聚类中心的总平均距离 D¯

D ¯ = 1 N \sum j = 1 N N j D ¯ j = 1 10 \sum j = 1 2 N j D ¯ j = 2 .345

（16）因是偶数次迭代，所以进行合并

（17）计算聚类对之间的距离

D 12 = ∥ z 1 - z 2 ∥ = 4 .5651

（18）比较 D12 与θc ， D12 >θc，所以聚类中心不发生合并

（19）没有达到所需的聚类数，所以继续进行，重新分类

样本点	特征值		到z1的距离	到z2的距离	聚类结果
X1	0	0	7.6577	3.3287	S2
X2	3	8	2.9732	6.2032	S1
X3	2	2	4.8415	0.82462	S2
X4	1	1	6.2482	1.9698	S2
X5	5	3	2.8	2.506	S2
X6	4	8	2.4166	6.3151	S1
X7	6	3	2.9732	3.4176	S1
X8	5	4	1.8	3.1113	S1
X9	6	4	2.0591	3.8833	S1
X10	7	5	2.1541	5.2802	S1

S 1 = {x 2, x 6, x 7, x 8, x 9, x 10}, N 1 = 6

S 2 = {x 1, x 3, x 4, x 5}, N 2 = 4

（20）因N₁>θ_N 且N₂>θ_N，无子集可抛。

（21）修改聚类中心

z 1 = 1 N 1 \sum x \in S 1 x = (5 .1667 5 .3333)

z 2 = 1 N 2 \sum x \in S 2 x = (2 1.5)

（22）计算模式样本与聚类中心间的平均距离， D¯1,j=1,2

D ¯ 1 = 1 N 1 \sum x \in S 1 ∥ x - z 1 ∥ = 2 .2673

D ¯ 2 = 1 N 2 \sum x \in S 2 ∥ x - z 2 ∥ = 1 .868

（23）计算全部模式样本和其对应聚类中心的总平均距离 D¯

D ¯ = 1 N \sum j = 1 N N j D ¯ j = 1 10 \sum j = 1 2 N j D ¯ j = 2 .1076

（24）此次是奇数次迭代，并且 Nc>K2 ，所以进行分裂操作

（25）计算 S1={x2,x6,x7,x8,x9,x10}

和 S21={x1,x3,x4,x5}

的标准差

σ 1 = (1.3437 1.972), σ 2 = (1.8708 1.118)

（26） σ1max=1.972,σ2max=1.8708

（27）此时， σ1max=1.972>θs,N1=6>2(θN+1)=4 且 D¯1>D¯ ,所以满足分裂的条件，将S1进行分裂。

设 \rj=0.5σ1max≈0.986 ,则

z + 1 = (5 .1667 6 .3193), z - 1 = (5 .1667 4 .3473)

为方便起见，将 Z+1 和Z_^-表示为 Z11 和 Z12 , Nc 加1， Nc=3 .

（28）重新进行分类

样本点	特征值		到的距离	到的距离	到的距离	聚类结果
X1	0	0	8.1626	6.7523	2.5	S2
X2	3	8	2.7421	4.247	6.5765	S11
X3	2	2	5.3558	3.9418	0.5	S2
X4	1	1	6.7569	5.3447	1.118	S2
X5	5	3	3.3235	1.3576	3.3541	S12
X6	4	8	2.046	3.8345	6.8007	S11
X7	6	3	3.4223	1.5842	4.272	S12
X8	5	4	2.3253	0.38524	3.9051	S12
X9	6	4	2.4645	0.90278	4.717	S12
X10	7	5	2.2587	1.946	6.1033	S12