03. 非监督学习算法k-means原理及案例

最新推荐文章于 2023-04-27 13:52:04 发布

越奋斗，越幸运

最新推荐文章于 2023-04-27 13:52:04 发布

阅读量251

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/fanjianhai/article/details/102983651

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1. k-means的步骤

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

2. api

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)
- k-means聚类
- n_clusters:开始的聚类中心数量
- init:初始化方法，默认为’k-means ++’
- labels_:默认标记的类型，可以和真实值比较（不是值比较）

3. 聚类评估标准

轮廓系数
- 计算公式：sci = (bi - ai) / max(bi, ai)
- 注：对于每个点i为已聚类数据中的样本， bi为i到其他族群的所有样本的平均距离， ai为i到本族群所有样本的平均距离，最终计算出所有的样本点的轮廓系数的平均值
- 轮廓系数的值是介于[-1,1], 越趋近与1代表内聚度和分离度都相对较优

4. 代码实现

from sklearn.decomposition import PCA
import pandas as pd
from sklearn.cluster import KMeans
from matplotlib import pyplot as plt
from sklearn.metrics import silhouette_score

# 读取四张表的数据
prior = pd.read_csv("./data/instacart_data/order_products__prior.csv")
products = pd.read_csv("./data/instacart_data/products.csv")
orders = pd.read_csv("./data/instacart_data/orders.csv")
aisles = pd.read_csv("./data/instacart_data/aisles.csv")

# 合并四张表（用户-物品类别）
_mg = pd.merge(prior, products, on=['product_id', 'product_id'])
_mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])
# 交叉表（特殊的分组工具）
cross = pd.crosstab(mt['user_id'], mt['aisle_id'])
# 主成分分析
pca = PCA(n_components=0.9)

data = pca.fit_transform(cross)
print(data.shape)

km = KMeans(n_clusters=4)
# 缩小数据
x = data[:500]

km.fit(x)
predicted = km.predict(x)

# 显示聚类的结果
plt.figure(figsize=(10,10))

colored = ['orange', 'green', 'blue', 'purple']
color = [colored[i] for i in predicted]
# 随机选取第一个特征和第二十个特征进行绘图
plt.scatter(x[:,1], x[:, 20], color=color)

print("轮廓系数：", silhouette_score(x, predicted))

5. Kmeans总结

采用迭代式算法，直观易懂并且非常实用
缺点：
- 容易收敛到局部最优解(多次聚类)
- 需要预先设定簇的数量(k-means++解决)

越奋斗，越幸运

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
03. 非监督学习算法k-means原理及案例

1. k-means的步骤随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程2. apisklearn.cluster.KMeans(n_clusters=8,init=‘...
复制链接

扫一扫