聚类及相关算法二（原型聚类、密度聚类、层次聚类）

最新推荐文章于 2022-11-19 15:41:46 发布

loveitlovelife

最新推荐文章于 2022-11-19 15:41:46 发布

阅读量1.3k

点赞数

分类专栏：机器学习相关

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79425028

版权

机器学习相关专栏收录该内容

18 篇文章 4 订阅

订阅专栏

原型聚类

描述：对原型进行初始化，然后对原型进行迭代更新求解。

1.k均值算法

给定样本集 $D=\{x_1,x_2,...,x_m\}，$ “k-均值”(k-means)算法针对聚类所得簇划分 $C=\{C_1,C_2,C_3,...,C_k\}$ 最小化平方误差 $E=\sum_{i=1}^k \sum_{x \in c_i}||x-\mu_i||_2^2，\mu_i=\frac{1}{|C_i|}\sum_{x \in C_i}x ~是簇C_i的均值向量$

采用贪心算法，通过迭代优化近似求解上式。

算法步骤：
输入：样本集 $D=\{x_1,x_2,...,x_m\};$
聚类簇数k.
1:从D中随机选择k个样本作为初始均值向量 ${\mu_1,\mu_2,...,\mu_k}$
2:repeat
3: $\quad 令C_i =\varnothing (1 \le i \le k)$
4: $\quad for ~j =1,2,...,m~do$
5: $\qquad 计算样本x_j与各均值向量\mu_i(1 \le i \le k)的距离：d_ji =||x_j-\mu_i||_2$
6: $\qquad 根据距离最近的均值向量确定x_j的粗标记：\lambda_j =arg~min_{i \in \{1,2,...,k\}}~d_{ji};$
7: $\qquad 将样本x_j划入相应的簇：C_{\lambda_j} \cup\{x_j\};$
8: $\quad end ~ for$
9: $\quad for~ i =1,2,...,k~do$
10: $\qquad计算新均值向量：\mu_i^{‘} =\frac{1}{|C_i|}\sum_{x \in C_i} x$
11: $\qquad if~ \mu_i^{`} \neq \mu_i~then$
12 $\qquad ~~~~将当前均值向量\mu_i更新为\mu_i^{`}$
13: $\qquad else$
14: $\qquad~~~~ 保持当前均值向量不变$
15： $\qquad end~if$
16: $\quad end~for$
17: $until~$ 当前均值向量未更新

2学习向量量化（LVQ算法）

特点：假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。

给定样本集 $D={(x_1,y_1,(x_2,y_2),...,(x_m,y_m)}，$ 每个样本是由n个属性描述的特征向量 $(x_{j1};x_{j2};x_{j3};...;x_{jn}),y_j \in \Gamma$ 是样本 $x_j$ 得类别标记。LVQ目标是学得一组n维原型向量{p_1,p_2,…,p_q}，每个原型向量代表一个聚类簇

算法描述：
输入：样本集D ={(x_1,y_1),(x_2,y_2),…,(x_m,y_m)};
原型向量个数q，各原型向量预设的类别标记{t_1,t_2,…,t_q};
学习率 $\eta \in (0,1)$
过程：
1、初始化一组原型向量 ${p_1,p_2,...,p_q}$
2、 $repeat$
3、 $\quad 从样本集D随机选取样本(x_j,y_j);$
4、 $\quad 计算样本x_j与p_i(1 \le i \le q)的距离：d_{ij} ={{x_j-p_i}}_2;$
5、 $\quad$ 找出与 $x_j$ 距离最近的原型向量 $p_{i^*},i^* =arg~min_{i \in\{1,2,...,q\}}~d_{ji};$
6、 $\quad if ~y_j =t_{i^*}~then$
7、 $\qquad p' =p_{i^*} +\eta·(x_j-p_{i^*})$
8、 $\quad else$
9、 $\qquad p'=p_{i^*} -\eta·(x_j-p_{i^*})$
10、 $\quad end ~if$
11、 $\quad 将原型向量p_{i^*} 更新为p'$
12、 $until~ 满足停止条件$

核心步骤：6~10行，若类别相同，则 $p_{i^*} 向x_j$ 靠拢；反之远离。

3高斯混合聚类

特点：采用概率模型表达聚类原型

多元高斯分布定义：对n维样本空间\chi中的随机向量x，若x服从高斯分布，其概率密度函数为：

p (x) = 1 ( 2 π ) n 2 | Σ | 1 2 e - 1 2 (x - μ) T Σ - 1 (x - μ)

$p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}~~|\Sigma|^{\frac{1}{2}}} e^{-\frac {1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}$
该分布由均值向量

μ μ $\mu$ 和协方差矩阵

Σ Σ $\Sigma$ 确定，我们将概率密度函数定义为

p(x|μ,Σ) p ( x | μ , Σ ) $p(x|\mu,\Sigma)$ ，于是我们定义高斯混合分布

p m (x) = \sum i = 1 k α i \cdot p (x | μ i, Σ i)

$p_m(x)=\sum_{i=1}^k \alpha_i·p(x|\mu_i,\Sigma_i)$ 其中，每一个混合成分对应一个高斯分布，

μi和Σi μ i 和 Σ i $\mu_i和\Sigma_i$ 是第i个高斯混合分布的参数，

αi α i $\alpha_i$ 为混合系数，

∑ki=1αi=1 ∑ i = 1 k α i = 1 $\sum_{i=1}^k\alpha_i=1$

$\quad$ 从原型聚类的角度看，高斯混合聚类模型采用概率模型对原型进行刻画，簇的划分由原型对应的后验概率确定，具体的后验概率公式由贝叶斯定理得出，采用极大似然估计求解模型参数。具体推导步骤下一次再写。

密度聚类

亦称“基于密度的聚类”，此类算法假设聚类结构能通过样本分布的紧密程度确定。
DBSCAN是一种著名的密度聚类算法，它基于一组“邻域”参数 $(\epsilon,MinPts)$ 来刻画样本分布的紧密程度。给定数据集，有如下概念：
+邻域：即 $N_{\epsilon}(x_j)=\{x_i \in D | dist(x_i,x_j) \le \epsilon\};$
+核心对象： $x_j的\epsilon-邻域$ 至少包含MinPts个样本，即 $N_{\epsilon}(x_j) \ge MinPts$
+密度直达： $x_j位于x_i$ 的 $\epsilon-$ 邻域中，且 $x_i$ 是核心对象。
+密度可达：对样本序列 $p_1,p_2,...,p_n,p_1=x_i,p_n=x_j$ 且 $p_{i+1}由P_i$ 密度直达，则称 $x_j和x_i$ 密度可达
+密度相连：对 $x_i和x_j$ ，若存在 $x_k$ 使得 $x_i和x_j$ 均由 $x_k$ 密度可达，则称 $x_i与x_j$ 密度相连。
基于以上概念，DBSCAN将“簇”定义为：由密度可达关系导出最大密度相连样本的集合即：给定邻域参数 $(\epsilon ,MinPts)$ ，簇C满足一下性质非空样本子集：

连 接 性 ： x i \in C, x j \in C : x i 与 x j 密 度 相 连 最 大 性 ： x i \in C, x j 由 x i 密 度 可 达 ： x j \in C

$连接性：x_i \in C,x_j \in C :x_i与x_j密度相连\\最大性：x_i \in C ,x_j 由 x_i 密度可达：x_j \in C$ ，则若x为核心对象，由x密度可达的所有样本组成的集合记为

X={x′∈D|x′由x密度可达} X = { x ′ ∈ D | x ′ 由 x 密度可达 } $X=\{x' \in D| x'由x密度可达\}$ ,X即为满足连接性与最大性的簇

DBSCAN算法步骤：
输入：样本集 $D=\{x_1,x_2,...,x_m \};$
邻域参数 $(\epsilon,MinPts).$
过程：
1、初始化核心对象集合： $\Omega = \varnothing$
2、 $for ~ j=1,2,...,m~ do$
3、 $\quad 确定样本x_j的\epsilon-邻域N_{\epsilon}(x_j);$
4、 $\quad if |N_{\epsilon}(x_j)| \ge MinPts ~ then$
5、 $\qquad 将样本x_j加入核心对象集合：\Omega =\Omega \cup \{x_j\}$
6、 $\quad end~ for$
7、 $end ~ for$
8、 $初始化聚类簇数：k=0$
9、 $初始化未访问样本集合：\Gamma =D$
10 $、while~ \Omega \neq \varnothing~do$
11、 $\quad 记录当前未访问样本集合：\Gamma_{old} =\Gamma;$
12、 $\quad 随机选取一个核心对象o \in \Omega ，初始化队列Q=< o>；$
13、 $\quad \Gamma =\Gamma - \{o\};$
14、 $\quad while~Q \neq \varnothing~do$
15、 $\qquad 取出队列Q中的首个样本q；$
16、 $\qquad if ~|N_{\epsilon}(q) | \ge MinPts~then$
17、 $\qquad ~~~令\Delta =N_{\epsilon}(q) \cap \Gamma;$
18、 $\qquad ~~~将\Delta中的样本加入队列Q；$
19、 $\qquad ~~~\Gamma =\Gamma- \Theta ;$
20、 $\qquad end~if$
21、 $\quad end~while$
22、 $\quad k=k+1，生成聚类簇C_k=\Gamma_{old} \ \Gamma;$
23、 $\quad \Omega =\Omega \ C_k$
24、 $end ~while$
输出：簇划分 $C={C_1,C_2,...,C_k}$

层次聚类

试图在不同层次上对数据及进行划分自底向上对数据集划分，也可采用自顶向下的分拆策略；

AGNES层次聚类算法描述：先将数据集集中的没一个样本看作一个初始的聚类簇，然后在算法运行的每一步找出距离最近的两个聚类簇进行合并，不断重复直至达到预设的聚类簇个数。

聚类簇间的距离公式：

最 小 距 离 ： d m i n (C i, C j) = m i n x \in C i, z \in C j d i s t (x, z), 最 大 距 离 ： d m a x (C i, C j) = m a x x \in C i, z \in C j d i s t (x, z), 平 均 距 离 ： d a v g (C i, C j) = 1 | C i | | C j | \sum x \in C i \sum z \in C j d i s t (x, z) .

$最小距离：d_{min}~(C_i,C_j)=min_{x \in C_i,z \in C_j} dist(x,z),\\最大距离：d_{max}(C_i,C_j)=max_{x \in C_i,z \in C_j} ~dist(x,z),\\平均距离：d_{avg}(C_i,C_j) =\frac{1}{|C_i||C_j|} \sum_{x \in C_i} \sum_{z \in C_j} ~dist(x,z).$

算法步骤：
输入：样本集 $D={x_1,x_2,...,x_m};$
聚类簇距离度量函数d;
聚类簇数k.
过程：
1、 $for~j =1,2,...,m~do$
2、 $\quad C_j =\{x_j \}$
3、 $end ~ for$
4、 $for i =1,2,...,m~ do$
5 、 $\quad for ~ j=i+1,...,m~ do$
6、 $\qquad M(i,j) =d(C_i,C_j)$
7、 $\qquad M(j,i) =M(i,j)$
8、 $\quad end ~for$
9、 $end ~for$
10、 $设置当前聚类簇的个数：q=m$
11、 $while~q> k~do$
12、 $\quad 找出距离最近的两个聚类簇 C_{i^*}和C_{j^*}；$
13、 $\quad 合并C_{i^*}和C_{j^*}：C_{i^*} \cup C_{j^*};$
14、 $\quad for j =j^*+1,j^*+2,...,q~ do$
15、 $\qquad 将聚类簇C_j重编号为C_{j-1}$
16、 $\quad end~for$
17、 $\quad 删除距离矩阵M的第j^*行与第j^*列；$
18、 $\quad for ~j=1,2,...,q-1~do$
19、 $\qquad M(i^*,j) =d(C_{i^*},C_j);$
20、 $\qquad M(j,i^*) =M(i^*,j)$
21、 $\quad end ~for$
22、 $\quad q=q-1$
23、 $end~ while$
输出：簇划分 $C={C_1,C_2,...,C_k}$

loveitlovelife

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
聚类及相关算法二（原型聚类、密度聚类、层次聚类）

原型聚类描述：对原型进行初始化，然后对原型进行迭代更新求解。1.k均值算法给定样本集D={x1,x2,...,xm}，D={x1,x2,...,xm}，D=\{x_1,x_2,...,x_m\}，“k-均值”(k-means)算法针对聚类所得簇划分C={C1,C2,C3,...,Ck}C={C1,C2,C3,...,Ck}C=\{C_1,C_2,C_3,...,C_k\}最小化平方...
复制链接

扫一扫