聚类算法之Mean Shift

最新推荐文章于 2024-05-10 22:41:31 发布

何如千泷

最新推荐文章于 2024-05-10 22:41:31 发布

阅读量1.2k

点赞数 1

文章标签：聚类算法机器学习

本文链接：https://blog.csdn.net/qq_42735631/article/details/120979358

版权

Mean Shift聚类算法

1. 基本原理

对于Mean Shift算法，是一个迭代得步骤，即每次迭代的时候，都是找到圆里面点的平均位置作为新的圆心位置。说的简单一点，使得圆心一直往数据密集度最大的方向移动。
在这里插入图片描述

2. 基本的`Mean Shift`向量形式

对于给定的 $d$ 维空间 $R^d$ 中的 $n$ 个样本点 $x_i, i=1,2,...,n$ ，对于空间中的任意点 $x$ 的mean shift向量的基本形式可以表示为：
$M_h(x)=\frac {1}{k}\sum_{x_i \in S_h}(x_i-x)$
其中， $k$ 表示的是数据集中的点到 $x$ 小于球半径 $h$ 的数据点的个数， $S_h$ 是一个半径为 $h$ 的高维球区域， $S_h$ 的定义为：
$S_h(x)=(y|(y-x)(y-x)^T \leq h^2)$

这样的一种基本的Mean Shift形式存在一个问题：在 $S_h$ 区域内，每一个点对 $x$ 的贡献都是一样的，而实际上，这种贡献与 $x$ 到每一个点之间的距离是相关的，同时，对于每一个样本，其重要程度也不一样。

3. 改进的`Mean Shift`向量形式

假设在 $S_h$ 范围内，为了使得每一个样本点 $x_i$ 对于样本 $x$ 的贡献不一样，向基本的Mean Shift向量形式中增加核函数，得到如下的改进的Mean Shift向量形式：
$M_h(x)=\frac {\sum_{x_i \in S_h}[K(\frac {x_i-x} {h})(x_i-x)]} {\sum_{x_i \in S_h}[K(\frac {x_i-x} {h})]}$
其中 $K(\frac {x_i-x} {h})$ 是高斯核函数，其函数形式如下：
$K(x_1,x_2)=K(\frac {x_1-x_2} {h})=\frac {1} {\sqrt {2\pi}h}e^{-\frac {(x_1-x_2)^2}{2h^2}}$
其中， $h$ 称为带宽bandwidth，即高维球区域 $S_h$ 的半径，不同带宽的核函数如下所示：
在这里插入图片描述

从图像可以看出，当带宽 $h$ 一定时，样本点之间的距离越近，其核函数的值越大；当样本点之间的距离相等时，随着高斯核函数的带宽 $h$ 的增大，核函数的值在减小

4. `Mean Shift`聚类流程

在未被标记的数据点中随机选择一个点作为中心center；
找出离center距离在bandwidth之内的所有点，记做集合 $M$ ，认为这些点属于簇 $c$ 。同时，把这些求内点属于这个类的概率加1，这个参数将用于最后步骤的分类
以center为中心点，计算从center开始到集合 $M$ 中每个元素的向量，将这些向量相加，得到向量shift
center = center+shift。即center沿着shift的方向移动，移动距离是||shift||
重复步骤2、3、4，直到shift的大小很小（就是迭代到收敛），记住此时的center。注意，这个迭代过程中遇到的点都应该归类到簇 $c$ 。
如果收敛时当前簇 $c$ 的center与其它已经存在的簇 $c_2$ 中心的距离小于阈值，那么把 $c_2$ 和 $c$ 合并。否则，把c作为新的聚类，增加1类。
重复1、2、3、4、5, 6直到所有的点都被标记访问
分类：根据每个类，对每个点的访问频率，取访问频率最大的那个类，作为当前点集的所属类。

5. 实例演示

import numpy as np 
import matplotlib.pyplot as plt 

from sklearn import cluster, datasets
from sklearn.preprocessing import StandardScaler

np.random.seed(0)

# 构建数据
n_samples = 1500
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=0.05)
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

data_sets = [
    (
        noisy_circles,
        {
            "quantile": 0.3
        }
    ),
    (
        noisy_moons,
        {
            "quantile": 0.3
        }
    ), 
    (
        blobs, 
        {
            "quantile": 0.3
        }
    )
]
colors = ["#377eb8", "#ff7f00", "#4daf4a"]

plt.figure(figsize=(15, 5))

for i_dataset, (dataset, algo_params) in enumerate(data_sets):
    # 模型参数
    params = algo_params

    # 数据
    X, y = dataset
    X = StandardScaler().fit_transform(X)

    # 设置bandwidth
    bandwidth = cluster.estimate_bandwidth(X, quantile=params['quantile'])

    # 创建Mean Shift
    ms = cluster.MeanShift(bandwidth=bandwidth, bin_seeding=True)

    # 训练
    ms.fit(X)

    # 预测
    y_pred = ms.predict(X)

    y_pred_colors = []

    for i in y_pred:
        y_pred_colors.append(colors[i])
    
    plt.subplot(1, 3, i_dataset+1)

    plt.scatter(X[:, 0], X[:, 1], color=y_pred_colors)

plt.show()

在这里插入图片描述

6. `Mean Shift`小结

优点：不用选择簇的数量；缺点：固定了bandwidth

何如千泷

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
聚类算法之Mean Shift

Mean Shift聚类算法1. 基本原理对于Mean Shift算法，是一个迭代得步骤，即每次迭代的时候，都是找到圆里面点的平均位置作为新的圆心位置。说的简单一点，使得圆心一直往数据密集度最大的方向移动。2. 基本的Mean Shift向量形式对于给定的ddd维空间RdR^dRd中的nnn个样本点xi,i=1,2,...,nx_i, i=1,2,...,nxi,i=1,2,...,n，对于空间中的任意点xxx的mean shift向量的基本形式可以表示为：Mh(x)=1k∑xi∈Sh(xi−
复制链接

扫一扫