机器学习之无监督算法k-means（聚类）

最新推荐文章于 2024-09-01 13:38:47 发布

qq_39682037

最新推荐文章于 2024-09-01 13:38:47 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习文章标签：聚类机器学习 python 数据分析

本文链接：https://blog.csdn.net/qq_39682037/article/details/105497789

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

k-means

什么叫做无监督学习？

数据集只有特征值但是缺少目标值。不知道自己做得预测值是正确或不正确。

k-means

在这里插入图片描述
如上图，每个人的衣着作为每个人特征，我们将相似的特征作为一个类别进行分析。简称：“物以类聚，人以群分”。

举例

K：把数据划分为多少个类别。例：K=2，则划分为2个类别；K=3，则划分为3个类别；K=4，则划分为4个类别…

一般情况下，我们需要提前知道类别的个数。若不知道类别个数时，则k就是一个超参数。

在这里插入图片描述
当k=3时，

随机在数据中抽取三个样本，当作三个样本的中心点（k1,k2,k3）。
计算其余的点分别到这三个中心点的距离，每个样本有三个距离（a,b,c），从中选出距离最近的一个点作为自己的标记。形成三个族群。
分别计算这三个族群的平均值，把三个平均值与之前三个旧中心点进行比较。如果比较相同，结束聚类；如果不相同，把这三个平均值当作新的中心点。重复第2步。

所以，聚类一般做在分类操作之前

知识储备

k-means API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

n_clusters:开始的聚类中心数量
init:初始化方法，默认为’k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）

代码演示：


import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score


def means():
    # 读取四张表的数据
    prior = pd.read_csv("./data/instacart/order_products__prior.csv")
    products = pd.read_csv("./data/instacart/products.csv")
    orders = pd.read_csv("./data/instacart/orders.csv")
    aisles = pd.read_csv("./data/instacart/aisles.csv")
    
    # 合并四张表到一张表  （用户-物品类别）
    _mg = pd.merge(prior, products, on=['product_id', 'product_id'])
    _mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
    mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])
    
    # 交叉表（特殊的分组工具）
    cross = pd.crosstab(mt['user_id'], mt['aisle'])
    
    # 进行主成分分析
    pca = PCA(n_components=0.9)
    
    data = pca.fit_transform(cross)
    
    # 把样本数量减少
    x = data[:500]
    
    # 假设用户一共分为四个类别
    km = KMeans(n_clusters=4)
    
    km.fit(x)
    
    predict = km.predict(x)
    
    # 显示聚类的结果
    plt.figure(figsize=(10,10))
    
    # 建立四个颜色的列表
    colored = ['orange', 'green', 'blue', 'purple']
    colr = [colored[i] for i in predict]
    plt.scatter(x[:, 1], x[:, 20], color=colr)
    
    plt.xlabel("1")
    plt.ylabel("20")
    
    plt.show()
    
    # 评判聚类效果，轮廓系数
    silhouette_score(x, predict)


if __name__ == "__main__ ":
    means()