机器学习：Python实现聚类算法(三)之总结

勤奋的可乐

于 2023-08-30 14:57:01 发布

阅读量686

点赞数 1

分类专栏：机器学习文章标签：机器学习 python 人工智能深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/AI333888/article/details/132582474

版权

考虑到学习知识的顺序及效率问题，所以后续的几种聚类方法不再详细讲解原理，也不再写python实现的源代码，只介绍下算法的基本思路，使大家对每种算法有个直观的印象，从而可以更好的理解函数中参数的意义及作用，而重点是放在如何使用及使用的场景。

（题外话：今天看到一篇博文：刚接触机器学习这一个月我都做了什么？里面对机器学习阶段的划分很不错，就目前而言我们只要做到前两阶段即可）

因为前两篇博客已经介绍了两种算法，所以这里的算法编号从3开始。

3.Mean-shift

1)概述

Mean-shift（即：均值迁移）的基本思想：在数据集中选定一个点，然后以这个点为圆心，r为半径，画一个圆(二维下是圆)，求出这个点到所有点的向量的平均值，而圆心与向量均值的和为新的圆心，然后迭代此过程，直到满足一点的条件结束。(Fukunage在1975年提出)

后来Yizong Cheng 在此基础上加入了核函数和权重系数，使得Mean-shift 算法开始流行起来。目前它在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。

2）图解过程

为了方便大家理解，借用下几张图来说明Mean-shift的基本过程。

由上图可以很容易看到，Mean-shift 算法的核心思想就是不断的寻找新的圆心坐标，直到密度最大的区域。

3）Mean-shift 算法函数

a）核心函数：sklearn.cluster.MeanShift(核函数：RBF核函数)

由上图可知，圆心(或种子)的确定和半径(或带宽)的选择，是影响算法效率的两个主要因素。所以在sklearn.cluster.MeanShift中重点说明了这两个参数的设定问题。

b）主要参数

bandwidth ：半径(或带宽)，float型。如果没有给出，则使用
sklearn.cluster.estimate_bandwidth计算出半径(带宽).（可选）

seeds :圆心（或种子），数组类型，即初始化的圆心。（可选）

bin_seeding ：布尔值。如果为真，初始内核位置不是所有点的位置，而是点的离散版本的位置，其中点被分类到其粗糙度对应于带宽的网格上。将此选项设置为True将加速算法，因为较少的种子将被初始化。默认值：False.如果种子参数(seeds)不为None则忽略。

c）主要属性

cluster_centers_ : 数组类型。计算出的聚类中心的坐标。

labels_ :数组类型。每个数据点的分类标签。

d）算法示例：代码中有详细讲解内容

from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import MeanShift, estimate_bandwidth
import numpy as np
import matplotlib.pyplot as plt
from itertools import cycle  ##python自带的迭代器模块

##产生随机数据的中心
centers = [[1, 1], [-1, -1], [1, -1]]
##产生的数据个数
n_samples=10000
##生产数据
X, _ = make_blobs(n_samples=n_samples, centers= centers, cluster_std=0.6, 
                  random_state =0)

##带宽，也就是以某个点为核心时的搜索半径
bandwidth = estimate_bandwidth(X, quantile=0.2, n_samples=500)
##设置均值偏移函数
ms = MeanShift(bandwidth=bandwidth, bin_seeding=True)
##训练数据
ms.fit(X)
##每个点的标签
labels = ms.labels_
print(labels)
##簇中心的点的集合
cluster_centers = ms.cluster_centers_
##总共的标签分类
labels_unique = np.unique(labels)
##聚簇的个数，即分类的个数
n_clusters_ = len(labels_unique)

print("number of estimated clusters : %d" % n_clusters_)


##绘图
plt.figure(1)
plt.clf()

colors = cycle('bgrcmykbgrcmykbgrcmykbgrcmyk')
for k, col in zip(range(n_clusters_), colors):
    ##根据lables中的值是否等于k，重新组成一个True、False的数组
    my_members = labels == k
    cluster_center = cluster_centers[k]
    ##X[my_members, 0] 取出my_members对应位置为True的值的横坐标
    plt.plot(X[my_members, 0], X[my_members, 1], col + '.')
    plt.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,
             markeredgecolor='k', markersize=14)
plt.title('Estimated number of clusters: %d' % n_clusters_)
plt.show()

e）效果图

图4

4）openCV主要应用于图像处理，而Mean-shift多用于图像跟踪等，所以对应图像处理这部分而言，openCV中的Mean-shift算法的功能还是强大一点。

4.Spectral Clustering

1）概述

最低0.47元/天解锁文章

勤奋的可乐

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习：Python实现聚类算法(三)之总结

Mean-shift（即：均值迁移）的基本思想：在数据集中选定一个点，然后以这个点为圆心，r为半径，画一个圆(二维下是圆)，求出这个点到所有点的向量的平均值，而圆心与向量均值的和为新的圆心，然后迭代此过程，直到满足一点的条件结束。(Fukunage在1975年提出)后来Yizong Cheng 在此基础上加入了核函数和权重系数，使得Mean-shift 算法开始流行起来。目前它在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。
复制链接

扫一扫

专栏目录