K-means聚类算法原理与实践

最新推荐文章于 2024-07-13 12:59:21 发布

PyTechShare

最新推荐文章于 2024-07-13 12:59:21 发布

阅读量872

点赞数 3

分类专栏： Python教程-基础文章标签：算法聚类 kmeans

本文链接：https://blog.csdn.net/qq_33578950/article/details/130041648

版权

Python教程-基础专栏收录该内容

47 篇文章 8 订阅

订阅专栏

K-means聚类算法是一种无监督学习算法，常用于对数据进行分组。本文将详细介绍K-means算法的原理及其实际应用。首先，我们将介绍K-means算法的基本原理和步骤，包括初始中心点选择、簇分配、中心点更新等。接着，我们将介绍如何使用Python实现K-means算法，包括如何选择K值、如何初始化中心点、如何进行簇分配和中心点更新等。最后，我们将通过一个实际案例来展示K-means算法的应用，即如何使用K-means算法对客户进行分类。通过本文的学习，你将掌握K-means聚类算法的基本原理和实际应用技巧，为你的工作和研究提供帮助。

文章目录

1. K-means聚类算法的基本原理

K-means算法是一种无监督学习算法，用于将一组数据分为多个组或簇。其核心思想是将数据分为K个簇，使得每个数据点都属于其中一个簇，同时每个簇的中心点尽可能地接近该簇中所有数据点的平均值。具体来说，K-means算法包括以下几个要点：

初始中心点选择：选择K个初始中心点，可以随机选择或使用一些特定的初始化方法。
簇分配：对于每个数据点，计算其到K个中心点的距离，并将其分配到距离最近的中心点所在的簇中。
中心点更新：对于每个簇，重新计算其所有数据点的平均值，并将该平均值作为新的中心点。
迭代：重复执行步骤2和步骤3，直到中心点不再发生变化或达到最大迭代次数。

2. K-means算法的步骤

K-means算法的步骤如下：

选择要分成的簇的数量k，以及要聚类的数据集。
随机选择k个数据点作为簇的中心点。
计算每个数据点到每个簇中心点的距离，并将数据点分配到距离最近的簇中心点所在的簇中。
计算每个簇中所有数据点的平均值，并将这个平均值作为该簇的新中心点。
重复步骤3和步骤4，直到中心点不再改变或达到预设的迭代次数。

3. Python实现K-means算法

下面是使用Python实现K-means算法的示例代码。假设我们有一个数据集，包含2维的点（x，y），并且我们想将这些点分为两个簇。

import numpy as np
import matplotlib.pyplot as plt

def k_means(X, k, max_iters=100):
    # 随机选择k个点作为初始中心点
    centers = X[np.random.choice(len(X), k, replace=False)]
    for i in range(max_iters):
        # 计算每个数据点到每个中心点的距离
        distances = np.sqrt(((X - centers[:, np.newaxis])**2).sum(axis=2))
        # 分配每个数据点到最近的中心点所在的簇中
        labels = np.argmin(distances, axis=0)
        # 计算每个簇中所有数据点的平均值，作为新的中心点
        new_centers = np.array([X[labels == j].mean(axis=0) for j in range(k)])
        # 如果中心点不再改变，则退出循环
        if np.all(centers == new_centers):
            break
        centers = new_centers
    return centers, labels

# 生成随机数据集
np.random.seed(0)
X = np.random.randn(100, 2)

# 将数据分为2个簇
k = 2
centers, labels = k_means(X, k)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.scatter(centers[:, 0], centers[:, 1], c='r', marker='x', s=200)
plt.show()

运行结果：
K-means聚类

4. K-means算法的实际应用

K-means算法是一种常用的聚类算法，常被应用于市场分析、图像分割、自然语言处理等领域。下面我们来看一下K-means算法的一些实际应用。

4.1 市场分析

K-means算法可以用于市场分析，以便更好地理解客户的需求和行为。例如，可以使用K-means算法来对客户群体进行聚类，以便更好地了解客户的需求和行为。通过将客户分组，企业可以更好地了解客户的需求和行为，从而更好地为他们提供服务。

以下是一个使用K-means算法进行市场分析的案例：

假设某电商平台有一些用户购买历史的数据，包括用户ID、购买次数、购买金额等信息。现在想要将用户划分为不同的群体，以便于了解他们的购买行为和需求。

首先，将购买次数和购买金额作为特征，使用K-means算法进行聚类。根据数据的特点和业务需求，可以设置聚类数目为3个。运行K-means算法后，可以得到3个不同的群体，每个群体包含有类似的购买行为和需求的用户。

接下来，对每个群体进行进一步的分析。例如，对于第一个群体，可以发现他们的购买次数和购买金额都相对较小，可能是初次接触该平台的新用户；对于第二个群体，购买次数较多但购买金额不是很高，可能是重复购买但偏向购买价格较低的商品的用户；对于第三个群体，购买次数和购买金额都比较高，可能是忠实用户或高消费用户。

通过这种方式，可以更好地了解用户的需求和购买行为，为进一步的市场分析和营销决策提供支持。

4.2 图像分割

K-means算法可以用于图像分割，即将图像分成几个部分，每个部分具有相似的像素值。这在计算机视觉和图像处理中非常有用，因为它可以帮助我们识别图像中的不同对象或区域。以下是一个K-means算法用于图像分割的案例：

假设我们有一张海滩的照片，我们希望将它分成两个部分：天空和海洋。我们可以使用K-means算法，将图像中的像素分成两个簇：一个簇包含天空的像素，另一个簇包含海洋的像素。

我们可以使用Python的OpenCV库来实现这个过程，以下是Python代码示例：

import cv2
import numpy as np

# 读取图像
img = cv2.imread('beach.jpg')

# 将图像重塑为数据集
pixel_values = img.reshape((-1, 3))

# 将数据类型转换为float32，以便于后续计算
pixel_values = np.float32(pixel_values)

# 运行K-means算法
criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 100, 0.85)
k = 2
_, labels, centers = cv2.kmeans(pixel_values, k, None, criteria, 10, cv2.KMEANS_RANDOM_CENTERS)

# 将标签重塑回图像尺寸
labels = labels.reshape((img.shape[0], img.shape[1]))

# 创建空白图像
segmented_image = np.zeros_like(img)

# 根据标签为每个像素设置颜色
for i in range(k):
    segmented_image[labels == i] = centers[i]

# 显示分割结果
cv2.imshow('Segmented Image', segmented_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

上述代码中，我们首先读取图像，然后将其转换为一维数组。接下来，我们使用K-means算法将像素分成两个簇，然后将每个像素分配到簇。最后，我们将每个像素的标签转换为图像形式，以显示分割后的图像。

通过运行上述代码，我们可以得到一张分割后的图像，其中天空和海洋的像素被分到不同的簇中，从而实现了图像分割的目的。

2个簇
由于只设置了两个聚类簇，所以颜色较深的归为了一类，颜色较浅的归为了一类。如果把聚类簇设置为5，可以区分更多的颜色。

5个簇

4.3 文本聚类

K-means算法可以用于文本聚类，以便更好地了解大量文本数据的内容。例如，可以使用K-means算法将新闻文章或社交媒体帖子聚类成不同的主题。这可以帮助人们更好地理解大量文本数据的内容，并从中获取有价值的信息。

以20类新闻数据集（20 Newsgroups）为例，该数据集包含20个不同主题的新闻组，其中每个新闻组都有多篇文章，共计18846篇文章。我们可以使用K-means算法将这些文章分成不同的簇，以便更好地组织和理解这些文档。

以下是一个Python示例代码，使用K-means算法对20类新闻数据集进行聚类：

import numpy as np
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# 加载数据集
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# 特征提取
vectorizer = TfidfVectorizer(max_df=0.5, min_df=2, stop_words='english')
X = vectorizer.fit_transform(newsgroups.data)

# K-means聚类
k = 20  # 簇数
model = KMeans(n_clusters=k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)

# 输出每个簇的中心
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(k):
    print("Cluster %d:" % i)
    for j in order_centroids[i, :10]:
        print(' %s' % terms[j])

# 输出每篇文章所属的簇
labels = model.labels_
for i in range(len(newsgroups.data)):
    print("文章：%d，簇：%d" % (i, labels[i]))

运行结果中，对于每个簇，我们可以看到10个最具代表性的词汇。对于每篇文章，我们可以看到其所属的簇。

K-means算法可以将相似的文章聚集在一起，从而帮助我们更好地理解和组织大量文本数据。

4.4 自然语言处理

K-means算法可以用于自然语言处理，例如文本分类和情感分析。例如，可以使用K-means算法将文本数据聚类成不同的主题，然后将文本数据分类到这些主题中。这可以帮助人们更好地理解大量文本数据的内容，并从中获取有价值的信息。在情感分析方面，K-means算法可以用于将文本数据聚类成积极、消极或中性等不同情感的群体，以便更好地理解人们对某个主题或事件的情感态度。

以情感分析为例，假设我们有一个包含大量评论的数据集，每个评论都有一个标签，表示它是正面的、负面的还是中性的。我们可以使用K-means算法对这些评论进行聚类，将情感相似的评论分为一组，从而进行情感分类。

具体来说，我们可以将每个评论表示为一个向量，向量的每个元素表示词汇表中一个词汇在该评论中出现的次数。然后使用K-means算法对这些向量进行聚类，将相似的评论分为一组。

常见的中文停用词表可以在网上下载，例如中文停用词表：https://github.com/goto456/stopwords

在实际应用中，为了提高分类的准确性，通常需要对文本数据进行一些预处理，如去除停用词、进行词干化等（文本预处理的技巧可以参考这篇文章：文本预处理技巧：去除停用词、词形还原、词干提取等）。同时，还可以使用其他的特征表示方法，如TF-IDF、词向量等。

下面是一份测试数据，请将这份测试数据保存为comments.csv：

comment,label
这家餐厅的食物很好吃！,positive
服务非常糟糕，不会再来了。,negative
今天天气真好啊，我很喜欢！,positive
这部电影真的很不错，值得一看。,positive
这是我去过的最好的酒店之一！,positive
这个商品的质量真的很差，不建议购买。,negative
我觉得这个游戏很有趣，玩起来很舒服。,positive
这个手机的电池寿命很短，需要经常充电。,negative
我对这件事情没有任何看法。,neutral
这个软件的界面非常丑陋，但功能还是很不错的。,negative
我觉得这个音乐节非常好玩，我已经参加了两次了。,positive
这家酒店的房间非常干净整洁，服务也很周到。,positive
我不喜欢这个电影，觉得很无聊。,negative
这个新闻的内容非常重要，值得一读。,positive
这个饭店的菜品种类很丰富，味道也很好。,positive
这个人的态度很恶劣，不愿意为客户着想。,negative
我觉得这个产品的价格有点贵，但质量很好。,positive
这个演员的表演真的很棒，我很喜欢他的电影。,positive
我不太喜欢这个颜色，觉得有点难看。,negative
这个展览真的很精彩，我看得非常开心。,positive
这个公园的环境很好，是个放松心情的好去处。,positive
这个家具的质量非常不错，很耐用。,positive
这个汽车的油耗很高，但操控很不错。,neutral
这个游戏的玩法有点复杂，需要花费一些时间学习。,neutral
这个歌手的歌曲非常好听，我很喜欢。,positive
这个公交车的车速很慢，需要花费很长时间。,negative
这个商场的环境非常舒适，购物体验很好。,positive
这个手机的功能很强大，但外观有点丑。,neutral

以下是一个使用K-means算法进行情感分类的Python代码示例：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
import pandas as pd

# 读取数据
df = pd.read_csv('comments.csv')

# 文本向量化
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(df['comment'])

# 使用K-means进行聚类
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# 输出聚类结果
for i in range(3):
    print('Cluster %d:' % i)
    print(df['comment'][kmeans.labels_ == i])
    print()

在上面的代码中，我们首先使用CountVectorizer将评论数据转换为向量表示，然后使用K-means算法对这些向量进行聚类，最后输出聚类结果。这里我们设置n_clusters为3，表示将评论分为三类。

5. 总结

在本文中，我们介绍了K-means聚类算法的基本原理、算法步骤以及如何使用Python实现K-means算法。我们还探讨了K-means算法在实际应用中的一些用例，包括市场分析、图像分割、自然语言处理等。

总的来说，K-means算法是一个简单但非常强大的聚类算法，可以有效地将数据分组成具有相似特征的簇。我们可以使用K-means算法来挖掘数据集中的潜在模式，从而获得对数据集的更深入了解。

然而，K-means算法也存在一些限制和缺点。例如，K-means算法对初始聚类中心的选择非常敏感，如果初始聚类中心选择不当，可能会导致结果不佳。此外，K-means算法不适用于处理非凸形状的簇或噪声数据。

在实践中，我们需要权衡算法的优缺点，并根据数据的特征和需求选择合适的聚类算法。对于K-means算法，我们需要根据数据的特征来选择合适的聚类数和初始聚类中心，以获得最佳的聚类结果。

6. 参考文献

Scikit-learn documentation: Clustering with KMeans. Retrieved from https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

PyTechShare

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
K-means聚类算法原理与实践

在本文中，我们介绍了K-means聚类算法的基本原理、算法步骤以及如何使用Python实现K-means算法。我们还探讨了K-means算法在实际应用中的一些用例，包括市场分析、图像分割、自然语言处理等。总的来说，K-means算法是一个简单但非常强大的聚类算法，可以有效地将数据分组成具有相似特征的簇。我们可以使用K-means算法来挖掘数据集中的潜在模式，从而获得对数据集的更深入了解。然而，K-means算法也存在一些限制和缺点。
复制链接

扫一扫