机器学习第9章聚类概念总结和简单实践

最新推荐文章于 2024-05-22 16:59:54 发布

至味清欢

最新推荐文章于 2024-05-22 16:59:54 发布

阅读量531

点赞数 1

分类专栏：聚类西瓜书文章标签：聚类

本文链接：https://blog.csdn.net/Hey_yf/article/details/88650560

版权

本文总结了无监督学习中聚类方法的基本原理，介绍了如何在未标注数据集中寻找潜在规律并进行聚类。聚类流程包括随机选择样本作为初始中心，计算与其他样本的距离，迭代更新簇的中心直至满足停止条件。文章还提出了一个关于不同k值和初始中心选择对聚类结果影响的习题。

摘要由CSDN通过智能技术生成

一解决的问题

聚类属于无监督学习中的方法，目的在于在未标注label的数据集中找到潜在规律，并将数据进行聚类。

因为没有给定label，基本流程都是先随机产生样本作为计算中心，计算其他样本与中心的距离，距离近的划为同类；

迭代簇的数据中心，再进行下一轮计算，直到簇内数据不再变化或者达到停止条件，比如到达设定的簇数。

二概念总结

三习题

题9.4 基于西瓜集4.0设置三组不同k值，三组不同初始中心点，进行比较。讨论什么样的初始中心有利于取得好结果。

import pandas as pd
data = pd.read_csv('./CH9-DATA4.0.csv')
from sklearn.cluster import KMeans
import numpy as np
X = np.array(data)
# 不同簇数设置
kmeans1 = KMeans(n_clusters=3, random_state=0).fit(X)
kmeans2 = KMeans(n_clusters=4, random_state=0).fit(X)
kmeans3 = KMeans(n_clusters=5, random_state=0).fit(X)

# 绘图网格点准备
h = 0.01
x_max,x_min = max(data.density)+0.1,min(data.density)-0.1
y_max,y_min = max(data.