K-Means算法实现订单数据order.csv的聚类

最新推荐文章于 2024-05-31 21:08:00 发布

xiaolun@~200830

最新推荐文章于 2024-05-31 21:08:00 发布

阅读量5.1k

点赞数 9

分类专栏： python&java&其他算法文章标签：聚类算法 python 机器学习

本文链接：https://blog.csdn.net/weixin_43334389/article/details/110070545

版权

python&java&其他算法专栏收录该内容

48 篇文章 3 订阅

订阅专栏

1、介绍

1、概述
其基本介绍如下：

2、代码功能
通过本代码采用数据集后8个特征，初始时设置3个聚类中心，然后进行50次迭代之后，实现订单数据中的聚类。

2、代码

1、数据准备order.csv
（1）数据格式

"customer","order","total_items","discount%","weekday","hour","Food%","Fresh%","Drinks%","Home%","Beauty%","Health%","Baby%","Pets%"
0, 0, 45, 23.03, 4, 13, 9.46, 87.06, 3.48, 0, 0, 0, 0, 0
0, 1, 38, 1.22, 5, 13, 15.87, 75.8, 6.22, 2.12, 0, 0, 0, 0
0, 2, 51, 18.08, 4, 13, 16.88, 56.75, 3.37, 16.48, 6.53, 0, 0, 0
...

为了大家能够更好的学习K-Means聚类算法，我将这个csv文件放到我博客的资源中，通过下面的链接即可下载，注意在将下面的文件放到代码中运行时，注意修改代码中的文件路径。

https://download.csdn.net/download/weixin_43334389/13183776

2、代码

# @Time : 2020/11/22 21:33
# @Author : Li Kunlun
# @Description : KMean算法,聚类算法
import numpy as np
import pandas as pd
# tqdm 是一个快速，可扩展的Python进度条，可以显示进度信息
from tqdm import tqdm

data = pd.read_csv(r"dataset/order.csv", header=0)
# 后8列都要
t = data.iloc[:, -8:]
print(t)


class KMeans:
    """
    @desc:Kmeans聚类算法实现
    """

    def __init__(self, k, times):
        """
        @desc:初始化
        @param k:聚成k个类
        @param times:迭代次数
        """
        self.k = k
        self.times = times

    def fit(self, X):
        """
        @desc:根据训练数据测试模型
        @param X:训练数据特征矩阵，数组类型[样本数量，特征数量]
        """
        X = np.asarray(X)
        # X.shape (30000, 8)
        print("X.shape", X.shape)
        # 设置随机数种子，以便于可以相同的随机系列，以便随机结果重现
        np.random.seed(0)
        # 从数组中随机选择K个点作为初始聚类中心
        self.cluster_centers_ = X[np.random.randint(0, len(X), self.k)]
        # 用于存放数据所属标签
        self.labels_ = np.zeros(len(X))
        # 开始迭代
        for t in tqdm(range(self.times)):
            # 循环遍历样本计算每个样本与聚类中心的距离
            for index, x in enumerate(X):
                # 计算每个样本与每个聚类中心的欧式距离,每行元素进行求和
                dis = np.sqrt(np.sum((x - self.cluster_centers_) ** 2, axis=1))
                # 将最小距离的索引赋值给标签数组，索引的值就是当前所属的簇。范围（0，K-1）
                self.labels_[index] = dis.argmin()
            # 循环遍历每一个数据然后更新聚类中心
            for i in range(self.k):
                # 计算每个簇内所有点的均值，用来更新聚类中心
                self.cluster_centers_[i] = np.mean(X[self.labels_ == i], axis=0)

    def predict(self, X):
        """
        @desc:预测样本属于那个簇
        @param X:训练数据特征矩阵，数组类型[样本数量，特征数量]
        @return:返回类数组，每一个x所属的簇
        """
        X = np.asarray(X)
        result = np.zeros(len(X))
        for index, x in enumerate(X):
            # 计算样本与聚类中心的距离
            dis = np.sqrt(np.sum((x - self.cluster_centers_) ** 2, axis=1))
            # 找到距离最近的聚类中中心划分一个类别
            result[index] = dis.argmin()
        return result


kmeans = KMeans(3, 50)
kmeans.fit(t)
print("kmeans.cluster_centers_", kmeans.cluster_centers_)

# 查看某个簇内的所有样本数据
# t[kmeans.labels_ == 0]

# 测试1：每个数据有8个特征 [0. 2. 1.]
print(kmeans.predict([[30, 30, 40, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 30, 30, 40], [30, 30, 0, 0, 0, 0, 20, 20]]))
# 测试2
# 需要注意loc函数是用字符作为索引的。并且包含:后面的那一列
# 按照标签进行选择。
t2 = data.loc[:, "Food%":"Fresh%"]
#    Food%  Fresh%
# 0   9.46   87.06
# 1  15.87   75.80
# 2  16.88   56.75
print(t2.head(3))
kmeans = KMeans(3, 50)
kmeans.fit(t2)

import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

# 设置画布，将其设置大一点，便于查看
plt.figure(figsize=(10, 10))
# 绘制每个类别散点图
plt.scatter(t2[kmeans.labels_ == 0].iloc[:, 0], t2[kmeans.labels_ == 0].iloc[:, 1], label="类别1")
plt.scatter(t2[kmeans.labels_ == 1].iloc[:, 0], t2[kmeans.labels_ == 1].iloc[:, 1], label="类别2")
plt.scatter(t2[kmeans.labels_ == 2].iloc[:, 0], t2[kmeans.labels_ == 2].iloc[:, 1], label="类别3")
# 绘制聚类中心，s=300设置的 + 号的大小
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker="+", s=300)
plt.title("食物与肉类购买聚类分析")
plt.xlabel("食物")
plt.ylabel("肉类")
plt.legend()
plt.show()

3、结果展示
（1）食物与肉类购买聚类分析

（2）聚类中心坐标

[[46.33977936  8.93380516 23.19047005 13.11741633  4.8107557   1.17283735
   1.35704647  0.95392773]
 [19.5308009  50.42856608 14.70652695  7.89437019  3.69829234  0.91000428
   1.92515077  0.82113238]
 [ 7.93541008  4.56182052 30.65583437 18.57726789  8.61597195  1.28482514
  26.81950293  1.30158264]]

3、分析

1、np.random.randint生成随机数组

# 默认high是None,如果只有low，那范围就是[0,low)。如果有high，范围就是[low,high)。
np.random.seed(0)
# [5 0]
print(np.random.randint(0, 10, 2))

# 生成2*4维度的二维数组
# [[3 3 3 1]
#  [3 2 4 0]]
print(np.random.randint(5, size=(2, 4)))

2、enumerate 类型举例

# enumerate 函数用于遍历序列中的元素以及它们的下标：
# 0 a
# 1 b
# 2 c
for index, value in enumerate(["a", "b", "c"]):
    print(index, value)

3、矩阵求和axis=0/1分析

a = np.array([[0, 2, 1], [3, 5, 6], [0, 1, 1]])  # 得到一个矩阵a
# [[0 2 1]
#  [3 5 6]
#  [0 1 1]]
print(a)
# 将a中所有元素求和 0+2+1+3+5+6+0+1+1=19
print(a.sum())
# 求出每行元素的和 [ 3 14  2]
print(np.sum(a, axis=1))
# 出每列元素的和 [3 8 8]
print(np.sum(a, axis=0))

4、loc/iloc区别

dates = pd.date_range("20130101", periods=3)
df = pd.DataFrame(np.arange(12).reshape(3, 4), index=dates, columns=['A', 'B', 'C', 'D'])
#             A  B   C   D
# 2013-01-01  0  1   2   3
# 2013-01-02  4  5   6   7
# 2013-01-03  8  9  10  11
print(df)
# 1。其中loc 用行列标签，iloc用数字索引。
print(df.loc['20130101', 'B'])
# 10
print(df.iloc[2, 2])

xiaolun@~200830

关注

9
点赞
踩
62

收藏

觉得还不错? 一键收藏
1
评论
K-Means算法实现订单数据order.csv的聚类

1、介绍1、概述其基本介绍如下：2、代码功能通过本代码采用数据集后8个特征，初始时设置3个聚类中心，然后进行50次迭代之后，实现订单数据中的聚类。2、代码1、数据准备order.csv（1）数据格式"customer","order","total_items","discount%","weekday","hour","Food%","Fresh%","Drinks%","Home%","Beauty%","Health%","Baby%","Pets%"0, 0, 45, 2
复制链接

扫一扫

专栏目录