机器学习模型——K—Means算法

不同于K-Means算法第一次是随机选择K个聚类中心，K-Means++是假设已经选取了p个初始聚类中心(0<p<K)，则在选取第p+1个聚类中心时：距离当前p个聚类中心越远的点会有更高的概率被选为第p+1个聚类中心。只有在选取第一个聚类中心(p=1)时是通过随机的方法。该改进方法符合一般的直觉：聚类中心互相之间距离得越远越好。这个改进直观简单，也非常有效。

其他改进算法还有：

ISODATA：对于高纬度的数据样本，针对K值事先不一定能准确指定的情况，当属于某个类别的样本数过少时把这个类别去除，当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别。

https://www.cnblogs.com/yixuan-xu/p/6272208.html K-Means++

KMeans++也是解决解决KMeans的初值敏感的问题，它与二分K-Means不同的是：在选择两个聚类点的时候不是随机选择，而是先随机选择一个点，第二个选择距离该点最远的点，再进行划分。当然，为了避免异常点的存在，第二个点的选择会选择距离较远的几个点并进行加权选择最终的第二个点。

K-Means：随机的选取初始质心，但是这样簇的质量常常很差。处理选取初始质心问题的一种常用技术是：多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE（误差的平方和）的簇集。

KMeans++：随机地选择第一个点，或取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种方法，确保了选择的初始质心不仅是随机的，而且是散开的。但是，这种方法可能选中离群点。此外，求离当前初始质心集最远的点开销也非常大。为了克服这个问题，通常该方法可以用于抽样和筛出离群点后的样本数据上。

代码实现K值的选择：

枚举法：

首先我们用枚举法，来选择K值，枚举法K值的选择是观察其轮毂系数（silhouette_score），随着K值增加，轮廓系数的提升幅度开始减小，这通常也意味着达到了较好的聚类效果

from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
from sklearn.metrics import silhouette_score

iris = load_iris()

X = iris.data

# 枚举法
sil = []
for k in range(2,20):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    sil.append(silhouette_score(X,kmeans.labels_))

import matplotlib.pyplot as plt

plt.plot(range(2,20),sil)
plt.scatter(range(2,20),sil,c='Red')
plt.show()

由此看出K值在2的时候最好，因此我们选择2来作为K值

手肘法：

K值的选择主要是看拐点。

from sklearn.cluster import KMeans
from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data

sse = []
for k in range(2,20):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    sse.append(kmeans.inertia_)


import matplotlib.pyplot as plt
plt.plot(range(2,20),sse)
plt.scatter(range(2,20),sse,c='Red')
plt.show()

手肘法对于K值的选择应该是3或者是4，5

基于层次聚类：

概念：

层次聚类法试图在不同层次对数据集进行划分，从而形成树形的聚类结构，数据集的划分可采用“自下向上”的聚合策略，也可以采用“自顶向下”的分拆策略。聚类的层次被表示成树形图。树根拥有所有样本的唯一聚类，叶子是仅有一个样本的聚类。

自上向下（计算量非常大）：

BIRCH算法：

BIRCH算法即平衡迭代削减聚类法，其核心是用一个聚类特征3元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征，而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。

BIRCH算法通过构建CF树来实现数据的压缩和聚类，这个过程可以看作是一种“自下而上”的聚合策略。具体来说，算法首先扫描数据库，建立一棵存放于内存的CF树，这个树结构可以被看作数据的多层压缩，试图保留数据的内在聚类结构。然后，算法采用某个选定的聚类算法，如K-means或者凝聚算法，对CF树的叶节点进行聚类，把稀疏的簇当作离群点删除，而把更稠密的簇合并为更大的簇。

3元组包含：数据点个数，数据点特征之和，数据点特征的平方和。

分支因子：规定了树的每个节点的样本个数

簇直径：体现一类点的距离范围

BIRCH算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。

BIRCH算法中聚类特征树的构建过程是动态的，可以随时根据新的数据点对树进行重构，适合大规模数据集。

总结来说，BIRCH算法通过构建CF树并在此基础上进行聚类，实现了一种“自下而上”的聚合策略，这种方法在处理大规模数据集时非常有效，能够在不牺牲聚类质量的前提下，减少计算复杂性。

https://www.cnblogs.com/pinard/p/6179132.html 算法原理

代码实现：

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data

from sklearn.cluster import Birch
bir = Birch(n_clusters=3,threshold=1000,branching_factor=5)
bir.fit(X)

print(bir.labels_)

半径的选取如果太大，就会全部预测为一种类型。因此合理的半径是成功的标配。

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data

from sklearn.cluster import Birch
bir = Birch(n_clusters=3,threshold=1,branching_factor=5)
bir.fit(X)

print(bir.labels_)

自底向上（计算量非常大，不经常用）：

Hierarchical Clustering算法原理：

主要思路：确保距离近的点落在同一个簇(cluster)之中，

流程如下：

将每个对象作为一个簇c_i={x_i}，形成簇的集合 C={c_i}；

迭代以下步骤直至所有对象都在一个族中；找到一对距离最近的簇：min D(c_i，c_j)；

将这对簇合并为一个新的簇；

从原集合C中移除这对簇；

最终产生层次树形的聚类结构: 树形图。

https://blog.csdn.net/zhangyonggang886/article/details/53510767 原理

Hierarchical Clustering算法优缺点：

优点：

可排除噪声点的干扰，但有可能噪声点分为一簇。

适合形状不规则，不要求聚类完全的情况。

不必确定K值，可根据聚类程度不同有不同的结果。

原理简单，易于理解。

缺点：

计算量很大，耗费的存储空间相对于其他几种方法要高。

合并操作不能撤销。、

合并操作必须有一个合并限制比例，否则可能发生过度合并导致所有分类中心聚集，造成聚类失败。

基于密度聚类：

密度聚类的思想不同于K-Means，它是通过聚类的簇是否紧密相连来判断样本点是否属于一个簇，代表性的算法就是DBSCAN，它基于一组邻域参数来判断某处样本是否是紧密。

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法，可以不设置K值）是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN还适用于非凸样本集。

https://blog.csdn.net/dsdaasaaa/article/details/94590159 算法原理

DBSCAN算法的基本概念：

存在数据集D={x_1,x_2,…,x_m}，DBSCAN的相关密度概念描述如下：

ε−邻域：对于x_j∈D，其ε−邻域包含样本集D中与x_j的距离不大于ε的点构成一个子样本集，即N_ε(x_j)={x_j∈D|distance(x_i,x_j)≤ε}，该子样本集的样本个数记为|N_ε(x_j)|。

核心对象：对于任一样本x_j∈D，如果其ε−邻域对应的N_ε(x_j)至少包含min⁡_samples个样本，即如果|N_ε(x_j)|≥min⁡_samples，则x_j是核心对象。

密度直达：如果x_i位于x_j的ε−邻域中，且x_j是核心对象，则称x_i由x_j密度直达。注意反之不一定成立，即不能说x_j由x_i密度直达，除非且x_i也是核心对象。

密度可达：对x_i和x_j，如果存在样本序列p_1, p_2,..., p_T，满足p_1=x_i，p_T=x_j，且p_t+1由p_t密度直达，则称x_j由x_i密度可达，密度可达满足传递性。此时p_1, p_2,..., p_T−1均为核心对象，因为只有核心对象才能使其他样本密度直达。另外，密度可达不满足对称性，由密度直达的不对称得出。
密度相连：对于x_i和x_j，如果存在核心对象样本x_k，使x_i和x_j均由x_k密度可达，则称x_i和x_j密度相连。注意密度相连关系是满足对称性的。

DBSCAN算法将数据点分为三类：

核心点：在半径ε内含有超过min⁡_samples数目的点。

边界点：在半径ε内点的数量小于min⁡_samples，但是落在核心点的邻域内的点。

噪音点：既不是核心点也不是边界点的点。

DBSCAN聚类算法优缺点：

DBSCAN的优点：

可以解决数据分布特殊（非凸，互相包络，长条形等）的情况。

对于噪声不敏感，速度较快，不需要指定簇的个数；可适用于较大的数据集。

在邻域参数给定的情况下结果是确定的，只要数据进入算法的顺序不变，与初始值无关。

缺点：

因为对整个数据集我们使用的是一组邻域参数，簇之间密度差距过大时效果不好。

数据集较大的时候很消耗内存。

对于高维数据距离的计算会比较麻烦，造成维数灾难。

代码实现：

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.1,min_samples=100)
dbscan.fit(X)

print(dbscan.labels_)

这种属于半径太小，最小样本点太大，导致所有数据均被预测为噪声点。

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=100,min_samples=5)
dbscan.fit(X)

print(dbscan.labels_)

这种属于半径太大，样本点太少导致的，所有数据均被预测为边界点

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=1,min_samples=10)
dbscan.fit(X)

print(dbscan.labels_)

在实际应用中，DBSCAN算法对半径和最小样本点的选取有着严格要求，合理的选取是必须的

梦想成为一名机器学习高手

关注

18
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
机器学习模型——K—Means算法

基于原型聚类(partitioning methods)K-Means算法，K-Mediods 算法基于层次聚类(hierarchical methods)、Hierarchical Clustering算法、BIRCH算法基于密度聚类(density-based methods)DBSCAN算法。
复制链接

扫一扫