感觉 PPT 有点乱,这里整理一下。
文章目录
基于模糊等价矩阵的聚类分析方法
主要步骤有三个:
- 建立模糊矩阵
- 建立模糊等价矩阵
- 聚类(求动态聚类图)
下面将分别介绍
建立模糊矩阵
设
U
=
u
1
,
u
2
,
…
,
u
n
U ={u_1, u_2, …, u_n }
U=u1,u2,…,un 为待分类的全体对象,其中每个待分类对象由一组数据表征
如下:
u
i
=
u_i =
ui= {
x
i
1
,
x
i
2
,
.
.
.
,
x
i
m
x_{i1},x_{i2}, ..., x_{im}
xi1,xi2,...,xim }
问题转化为:如何建立对象
u
i
与
u
j
u_i 与 u_j
ui与uj 之间的相似关系,其中
i
,
j
∈
[
1
,
n
]
i, j \in [1, n]
i,j∈[1,n]
建立模糊相似矩阵
建立模糊相似矩阵的注意事项:
- r i j ∈ [ 0 , 1 ] r_{ij} \in [0, 1] rij∈[0,1]
- 自反
- 对称
主要过程如下
数据预处理——数据标准化
设论域 U ={x1, x2, …, xn } 为待聚类对象,每个对象由 m 个指标表示其性状:
x
i
=
x_i=
xi={
x
i
1
,
x
i
2
,
.
.
.
,
x
i
m
x_{i1},x_{i2}, ..., x_{im}
xi1,xi2,...,xim}
将原始数据矩阵中的元素通过适当的变换压缩到 [0, 1] 上。
有如下两种常用的方法
平移-极差变换(变换至0-1区间)
平移-标准差变换(消除量纲)
值得一提的是,这种方法不一定会把原始数据矩阵中的元素压缩到 [0, 1] 上
值得一提的是这里的标准差是总体标准差,而不是样本标准差。
模糊相似矩阵的建立
相似系数法
数量积法
其中M为一适当选择的正数,满足
此时, r i j ∈ [ − 1 , 1 ] r_{ij} \in [-1, 1] rij∈[−1,1],若存在 r i j < 0 r_{ij} < 0 rij<0,令所有 r i j ′ = ( 1 + r i j ) / 2 r_{ij}'=(1+r_{ij})/2 rij′=(1+rij)/2 使得 r i j ′ ∈ [ 0 , 1 ] r_{ij}' \in [0, 1] rij′∈[0,1]
夹角余弦法
相关系数法
指数相似系数法
指数相似系数法中一行表示一个样本的多个属性。
最大最小法
算数平均最小法
几何平均最小法
上述三种方法要求 xij>0,否则也要作适当变换。
距离法
绝对值倒数法
绝对值减数法
绝对值指数法
直接距离法
r
i
j
=
1
−
c
∗
d
(
x
i
,
x
j
)
r_{ij}=1-c*d(x_i, x_j)
rij=1−c∗d(xi,xj)
海明距离
欧式距离
切比雪夫距离
主观评分法
专家直接给出相似度,专家数为 N,r_{ij}(k)表示第 k 个专家给出的 i 与 j 的相似度,
a
i
j
(
k
)
a_{ij}(k)
aij(k)为专家的自信度。
建立模糊等价矩阵
相似关系->等价关系
一般采用平方法来求传递闭包,也就是模糊等价矩阵
计算次数如下:
模糊相似矩阵 5×5
k = [log25]+1=2+1=3
最坏情况下,
R
−
>
R
2
−
>
R
4
−
>
R
8
,
计
算
到
R
8
R -> R^2 -> R^4 -> R^8,计算到R^8
R−>R2−>R4−>R8,计算到R8
聚类(求动态聚类图)
对传递闭包依次取截关系
直接基于模糊相似矩阵聚类
建立模糊相似矩阵 R 后,求其传递闭包 t® 计算量较大。
若直接从 R 出发,进行聚类,会怎么样?