对数据进行k-means聚类并进行三维可视化

数据集暂时无法公布,属于内部数据,格式大家可以从第114-118可以看出,data里就是这样的[[1,1,1],[2,2,2]…]数据格式,读取方法大家可以自行换,保证data里是这样就行了。
这个是画的三维图,所以实际上scatter传的是(x,y,z)三个坐标的数据,如果你的数据不是三维数据,那么这个算法也就没有意义了,因为这里能修改的也只是聚类的个数,数据维数暂时没办法修改,只针对三维数据。

import csv

import matplotlib.pyplot as plt
import numpy as np
import xlrd
from sklearn import preprocessing
from mpl_toolkits.mplot3d import Axes3D
# 标准化数据集 X
from xlsxwriter import worksheet


def normalize(X, axis=-1, p=2):
    lp_norm = np.atleast_1d(np.linalg.norm(X, p, axis))
    lp_norm[lp_norm == 0] = 1
    return X / np.expand_dims(lp_norm, axis)


# 计算一个样本与数据集中所有样本的欧氏距离的平方
def euclidean_distance(one_sample, X):
    one_sample = one_sample.reshape(1, -1)
    X = X.reshape(X.shape[0], -1)
    distances = np.power(np.tile(one_sample, (X.shape[0], 1)) - X, 2).sum(axis=1)
    return distances


class Kmeans():
    """Kmeans聚类算法.
    Parameters:
    -----------
    k: int
        聚类的数目.
    max_iterations: int
        最大迭代次数.
    varepsilon: float
        判断是否收敛, 如果上一次的所有k个聚类中心与本次的所有k个聚类中心的差都小于varepsilon,
        则说明算法已经收敛
    """

    def __init__(self, k=4, max_iterations=500, varepsilon=0.0001):
        self.k = k
        self.max_iterations = max_iterations
        self.varepsilon = varepsilon

    # 从所有样本中随机选取self.k样本作为初始的聚类中心
    def init_random_centroids(self, X):
        n_samples, n_features = np.shape(X)
        centroids = np.zeros((self.k, n_features))
        for i in range(self.k):
            centroid = X[np.random.choice(range(n_samples))]
            centroids[i] = centroid
        return centroids

    # 返回距离该样本最近的一个中心索引[0, self.k)
    def _closest_centroid(self, sample, centroids):
        distances = euclidean_distance(sample, centroids)
        closest_i = np.argmin(distances)
        return closest_i

    # 将所有样本进行归类,归类规则就是将该样本归类到与其最近的中心
    def create_clusters(self, centroids, X):
        n_samples = np.shape(X)[0]
        clusters = [[] for _ in range(self.k)]
        for sample_i, sample in enumerate(X):
            centroid_i = self._closest_centroid(sample, centroids)
            clusters[centroid_i].append(sample_i)
        return clusters

    # 对中心进行更新
    def update_centroids(self, clusters, X):
        n_features = np.shape(X)[1]
        centroids = np.zeros((self.k, n_features))
        for i, cluster in enumerate(clusters):
            centroid = np.mean(X[cluster], axis=0)
            centroids[i] = centroid
        return centroids

    # 将所有样本进行归类,其所在的类别的索引就是其类别标签
    def get_cluster_labels(self, clusters, X):
        y_pred = np.zeros(np.shape(X)[0])
        for cluster_i, cluster in enumerate(clusters):
            for sample_i in cluster:
                y_pred[sample_i] = cluster_i
        return y_pred

    # 对整个数据集X进行Kmeans聚类,返回其聚类的标签
    def predict(self, X):
        # 从所有样本中随机选取self.k样本作为初始的聚类中心
        centroids = self.init_random_centroids(X)

        # 迭代,直到算法收敛(上一次的聚类中心和这一次的聚类中心几乎重合)或者达到最大迭代次数
        for _ in range(self.max_iterations):
            # 将所有进行归类,归类规则就是将该样本归类到与其最近的中心
            clusters = self.create_clusters(centroids, X)
            former_centroids = centroids

            # 计算新的聚类中心
            centroids = self.update_centroids(clusters, X)

            # 如果聚类中心几乎没有变化,说明算法已经收敛,退出迭代
            diff = centroids - former_centroids
            if diff.any() < self.varepsilon:
                break

        return self.get_cluster_labels(clusters, X)


data = []
# 读取数据
wk = xlrd.open_workbook(r'D:\用kmeans算法的排名.xlsx')
sheets = wk.sheet_by_name('sheet1')
ws = wk.sheet_by_index(0)
# 获取总行数
nrows = ws.nrows
for i in range(1, nrows):
    row = sheets.cell_value(i, 0)
    row1 = sheets.cell_value(i, 1)
    row2 = sheets.cell_value(i, 2)
    data.append([row, row1, row2])
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))
A = np.array(data)
X=min_max_scaler.fit_transform(A)
num, dim = X.shape
clf = Kmeans(k=4)
y_pred = clf.predict(X)
print(y_pred)
color = ['r', 'g', 'b', 'c', 'y', 'm', 'k']
ax = plt.subplot(111, projection='3d')
f = open('D:\结果.csv', 'w', encoding='utf-8', newline='')
csv_writer = csv.writer(f)

for p in range(0,num):
    y=y_pred[p]
    csv_writer.writerow([y])
    ax.scatter(int(A[p, 0]), int(A[p, 1]), int(A[p, 2]), c=color[int(y)])
f.close()
plt.show()



在这里插入图片描述

k-means聚类是一种常用的无监督学习算法,可用于将具有相似特征的数据样本分组。 在Matlab中,k-means聚类算法可以应用于三维数据。首先,将待聚类数据导入Matlab,并确保数据的维度正确。然后,可以使用k-means函数进行聚类分析。 k-means函数的一般语法如下: [idx, C] = kmeans(data, k) 其中,data是一个n×m的矩阵,n表示样本数量,m表示特征维度;k是预先指定的聚类数量;idx是一个n×1的向量,表示每个样本所属的聚类的索引;C是一个k×m的矩阵,表示每个聚类的中心点的坐标。 在三维数据聚类中,data的每一行就代表一个三维数据点的坐标。通过执行k-means聚类算法,输出的idx向量将对应于每个数据点所属的聚类。 下面是一个简单的示例代码,演示了如何使用k-means函数对三维数据进行聚类: ``` % 生成随机的三维数据 data = rand(100, 3); % 指定聚类数量为k k = 3; % 执行k-means聚类 [idx, C] = kmeans(data, k); % 可视化结果 figure; scatter3(data(:, 1), data(:, 2), data(:, 3), 50, idx, 'filled'); hold on; scatter3(C(:, 1), C(:, 2), C(:, 3), 200, (1:k)', 'filled'); xlabel('X'); ylabel('Y'); zlabel('Z'); title('k-means聚类结果'); ``` 在上述示例中,首先生成了一个100×3的随机数据矩阵,然后将聚类数量指定为3。通过执行k-means聚类算法,得到的idx向量将指示每个数据点所属的聚类索引。最后,将原始数据聚类中心点可视化展示出来。 通过以上方法,可以在Matlab中进行k-means聚类算法三维数据分析。
评论 32
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苏格拉没有鞋底

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值