9.(Python数模)(分类模型一)K-means聚类

Python实现K-means聚类

K-means原理

K-means均值聚类算法作为最经典也是最基础的无标签分类学习算法。其实质就是根据两个数据点的距离去判断他们是否属于一类,对于一群点,就是类似用几个圆去框定这些点(簇),然后圆心的心就是聚类中心。
在这里插入图片描述

示例一

源代码

from sklearn.cluster import KMeans
import numpy as np

# 构造数据样本点集X,并计算K-means聚类
X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 输出及聚类后的每个样本点的标签(即类别),预测新的样本点所属类别
print(kmeans.labels_)
print(kmeans.predict([[0, 0], [4, 4], [2, 1]]))

在这个例子中,KMeans函数的参数意义如下:

n_clusters:表示要创建的聚类数目,这里设置为2,意味着将数据划分为两个簇。
n_init:表示执行算法的次数,每次执行都会随机初始化质心,选择具有最小总误差的结果作为最终模型。这里设置为10,意味着将执行10次算法并选择最好的结果。
random_state:是一个随机数生成器的种子,用于控制随机初始化质心的过程。通过设置相同的种子,可以使得每次运行都得到相同的结果。
.fit(X)表示对数据X执行K均值聚类算法,并训练模型。

运行结果

在这里插入图片描述

示例二

源代码

import time
import numpy as np
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import pairwise_distances_argmin
from sklearn.datasets._samples_generator import make_blobs

# ######################################
# Generate sample data
np.random.seed(0)

batch_size = 45
centers = [[1, 1], [-1, -1], [1, -1]]
n_clusters = len(centers)
X, labels_true = make_blobs(n_samples=3000, centers=centers, cluster_std=0.7)

# plot result
fig = plt.figure(figsize=(8,3))
fig.subplots_adjust(left=0.02, right=0.98, bottom=0.05, top=0.9)
colors = ['#4EACC5', '#FF9C34', '#4E9A06']

# original data
ax = fig.add_subplot(1,2,1)
row, _ = np.shape(X)
for i in range(row):
    ax.plot(X[i, 0], X[i, 1], '#4EACC5', marker='.')

ax.set_title('Original Data')
ax.set_xticks(())
ax.set_yticks(())

# compute clustering with K-Means
k_means = KMeans(init='k-means++', n_clusters=3, n_init=10)
t0 = time.time()
k_means.fit(X)
t_batch = time.time() - t0

k_means_cluster_centers = np.sort(k_means.cluster_centers_, axis=0)
k_means_labels = pairwise_distances_argmin(X, k_means_cluster_centers)

# K-means
ax = fig.add_subplot(1, 2, 2)
for k, col in zip(range(n_clusters), colors):
    my_members = k_means_labels == k		# my_members是布尔型的数组(用于筛选同类的点,用不同颜色表示)
    cluster_center = k_means_cluster_centers[k]
    ax.plot(X[my_members, 0], X[my_members, 1], 'w',
            markerfacecolor=col, marker='.')	# 将同一类的点表示出来
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,
            markeredgecolor='k', marker='o')	# 将聚类中心单独表示出来
ax.set_title('KMeans')
ax.set_xticks(())
ax.set_yticks(())
plt.text(-3.5, 1.8, 'train time: %.2fs\ninertia: %f' % (t_batch, k_means.inertia_))

plt.show()

运行结果

在这里插入图片描述

代码注释

1、使用Scikit-learn库中的make_blobs函数来生成随机的高斯分布数据集。通过指定n_samples参数为3000,centers参数为所需的中心点数量,cluster_std参数为0.7来生成数据集。返回数据点和对应的标签列表。
数据点列表
在这里插入图片描述
标签列表
在这里插入图片描述

2、fig.subplots_adjust(left=0.02, right=0.98, bottom=0.05, top=0.9)这段代码用于调整子图的位置。它通过设置左边界、右边界、底边界和顶边界的值来控制子图的位置。在这个例子中,左边界被设置为0.02,右边界被设置为0.98,底边界被设置为0.05,顶边界被设置为0.9。这意味着子图将占据整个画布的宽度的96%(从左边界到右边界),并且在垂直方向上从底边界的5%位置开始,到顶边界的90%位置结束。通过调整这些值,你可以改变子图在画布上的位置和大小。

3、ax = fig.add_subplot(1,2,1)这是在 Python 中创建一个简单的单图形对象,使用 matplotlib 库中的 fig.add_subplot() 方法。它创建了一个包含一个子图的图形。子图是位置在 (1,1) 的唯一子图。该变量 b’ax’ 将该子图对象存储起来,以便可以使用它来设置图形属性和添加绘图元素。

4、k_means = KMeans(init=‘k-means++’, n_clusters=3, n_init=10)。K-Means是一种常用的无监督学习算法,用于将数据划分为预先指定数量的簇(clusters)。在代码中,参数init='k-means’指定了用K-Means算法初始化聚类中心,初始化的方法有三种:k-means++,random,或者是一个数组。
k-means++能智能的选择初始聚类中心进行k均值聚类,加快收敛速度。该示例中初始化了聚类中心[[1, 1], [-1, -1], [1, -1]],选择K-means++加快收敛。random则是从数据中随机的选择k个观测值作为初始的聚类中心。
n_clusters=3指定了要生成的簇的数量为3,n_init=10指定了进行不同初始值运行的次数,以选择最佳的聚类结果。
对比
使用k-means++方法
在这里插入图片描述
在这里插入图片描述

使用random方法的3个聚类中心
在这里插入图片描述
运算时间为0.14s在这里插入图片描述
两种方法总内部方差一样,运算时间也一样,当更换为更大的数据时30000样本时,在相同运算时间下,k-means++计算的总内部方差更小,收敛效果更好。

5、k_means.fit(X)。使用了k-means算法的fit()方法来拟合数据集X。

6、k_means_cluster_centers = np.sort(k_means.cluster_centers_, axis=0)。在这段代码中,k_means是聚类模型,k_means.cluster_centers_是获取聚类中心的属性,np.sort是对聚类中心进行排序的函数,axis=0表示按照列的顺序进行排序。最后,k_means_cluster_centers存储了排序后的聚类中心。
聚类中心的属性如下:
在这里插入图片描述
排序后结果如下:
在这里插入图片描述
7、k_means_labels = pairwise_distances_argmin(X, k_means_cluster_centers)pairwise_distances_argmin()是一个函数,它根据输入的数据点X和K-means聚类算法的中心点k_means_cluster_centers,计算每个数据点最近的中心点,并返回对应的标签。换句话说,它会将数据点分配到最近的簇中,并返回每个数据点所属的簇标签。
在这里插入图片描述
8、my_members = k_means_labels == k
得到一个布尔值列表,用于下面索引选出不同的类
在这里插入图片描述

参考博文

Python学习——K-means聚类
一文速学数模-聚类模型(一)K-means聚类算法详解+Python代码实例

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
本程序是在python中完成,基于sklearn.cluster中的k-means聚类包来实现数据的聚类,对于里面使用的数据格式如下:(注意更改程序中的相关参数) 138 0 124 1 127 2 129 3 119 4 127 5 124 6 120 7 123 8 147 9 188 10 212 11 229 12 240 13 240 14 241 15 240 16 242 17 174 18 130 19 132 20 119 21 48 22 37 23 49 0 42 1 34 2 26 3 20 4 21 5 23 6 13 7 19 8 18 9 36 10 25 11 20 12 19 13 19 14 5 15 29 16 22 17 13 18 46 19 15 20 8 21 33 22 41 23 69 0 56 1 49 2 40 3 52 4 62 5 54 6 32 7 38 8 44 9 55 10 70 11 74 12 105 13 107 14 56 15 55 16 65 17 100 18 195 19 136 20 87 21 64 22 77 23 61 0 53 1 47 2 33 3 34 4 28 5 41 6 40 7 38 8 33 9 26 10 31 11 31 12 13 13 17 14 17 15 25 16 17 17 17 18 14 19 16 20 17 21 29 22 44 23 37 0 32 1 34 2 26 3 23 4 25 5 25 6 27 7 30 8 25 9 17 10 12 11 12 12 12 13 7 14 6 15 6 16 12 17 12 18 39 19 34 20 32 21 34 22 35 23 33 0 57 1 81 2 77 3 68 4 61 5 60 6 56 7 67 8 102 9 89 10 62 11 57 12 57 13 64 14 62 15 69 16 81 17 77 18 64 19 62 20 79 21 75 22 57 23 73 0 88 1 75 2 70 3 77 4 73 5 72 6 76 7 76 8 74 9 98 10 90 11 90 12 85 13 79 14 79 15 88 16 88 17 81 18 84 19 89 20 79 21 68 22 55 23 63 0 62 1 58 2 58 3 56 4 60 5 56 6 56 7 58 8 56 9 65 10 61 11 60 12 60 13 61 14 65 15 55 16 56 17 61 18 64 19 69 20 83 21 87 22 84 23 41 0 35 1 38 2 45 3 44 4 49 5 55 6 47 7 47 8 29 9 14 10 12 11 4 12 10 13 9 14 7 15 7 16 11 17 12 18 14 19 22 20 29 21 23 22 33 23 34 0 38 1 38 2 37 3 37 4 34 5 24 6 47 7 70 8 41 9 6 10 23 11 4 12 15 13 3 14 28 15 17 16 31 17 39 18 42 19 54 20 47 21 68 22
### 回答1: k-means是一种常用的聚类算法,Python中有多种库可以实现k-means聚类,比如scikit-learn、numpy等。 下面是一个使用scikit-learn库实现k-means聚类的示例代码: ```python from sklearn.cluster import KMeans import numpy as np # 生成数据 X = np.random.rand(100, 2) # 创建KMeans模型 kmeans = KMeans(n_clusters=3) # 进行聚类 kmeans.fit(X) # 获取聚类结果 labels = kmeans.labels_ # 获取聚类中心点 centers = kmeans.cluster_centers_ ``` 在上面的代码中,首先使用numpy库生成100个二维随机数据点。然后,创建了一个KMeans模型,并指定聚类数为3。最后,使用fit方法对数据进行聚类,获取聚类结果和聚类中心点。 需要注意的是,k-means算法依赖于初始随机点的选取,因此有可能会得到不同的聚类结果。为了避免这种情况,可以使用多次随机初始化来求解最优聚类结果。 ### 回答2: k-means聚类算法是一种常用的无监督学习方法,用于将数据集划分为k个不同的类别。下面是使用Python实现k-means聚类算法的过程: 1. 导入所需的库:我们首先要导入numpy和sklearn中的KMeans类。Numpy用于处理数值计算,而sklearn中的KMeans类是用于执行k-means聚类算法的。 2. 加载数据集:我们需要准备一个数据集,通常是一个二维的数据集,其中每个样本有两个特征。可以使用numpy中的loadtxt()函数加载文本文件或者手动创建一个数据集。 3. 初始化聚类中心:我们需要随机选择k个初始聚类中心。可以使用numpy中的randn()函数生成随机初始值。 4. 计算样本与聚类中心之间的距离:我们需要计算每个样本与每个聚类中心之间的距离。可以使用numpy中的euclidean_distances()函数计算欧几里得距离。 5. 将样本分配给最近的聚类中心:根据距离,将每个样本分配给与其距离最近的聚类中心。 6. 更新聚类中心:计算每个聚类的样本的平均值,并将其作为新的聚类中心。 7. 重复步骤5和步骤6,直到聚类中心不再变化或达到预定的迭代次数。 8. 输出聚类结果:将每个样本分配的聚类标签作为结果输出。 以上就是使用Python实现k-means聚类算法的步骤。通过这个算法,我们可以将数据集划分为k个不同的聚类。在实际应用中,我们可以根据聚类结果进行数据分析、分类和预测等任务。 ### 回答3: k-means聚类算法是一种常用的无监督学习算法,用于将数据集分成k个不同的簇。下面是k-means算法的Python实现。 1. 随机选择k个数据点作为初始的中心点。 2. 对数据集中的每个数据点,将其分配给最近的中心点,形成k个簇。 3. 对于每个簇,计算其中所有数据点的平均值,将这些平均值作为新的中心点。 4. 重复步骤2和3,直到中心点的位置不再改变。 下面是一个简单的Python实现示例: ```python import numpy as np def kmeans(data, k): # 随机初始化k个中心点 centers = data[np.random.choice(range(len(data)), k, replace=False)] while True: # 分配每个数据点到最近的中心点,形成k个簇 clusters = [[] for _ in range(k)] for point in data: distances = [np.linalg.norm(point - center) for center in centers] cluster_idx = np.argmin(distances) clusters[cluster_idx].append(point) # 计算每个簇的平均值作为新的中心点 new_centers = [] for cluster in clusters: new_centers.append(np.mean(cluster, axis=0)) # 如果中心点的位置不再改变,停止迭代 if np.all(centers == new_centers): break centers = new_centers return clusters # 示例用法 data = np.array([[1, 2], [3, 4], [1, 1], [2, 2], [4, 4], [5, 5]]) k = 2 clusters = kmeans(data, k) print(clusters) ``` 这个实现使用了NumPy库进行数值计算和数组操作,随机选择k个数据点作为初始中心点,并使用欧氏距离度量数据点和中心点之间的距离。通过迭代更新中心点的位置,直到收敛为止。最后返回k个簇的列表。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海绵波波107

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值