无监督学习:K-Means(聚类算法)学习笔记

本文介绍了无监督学习中的K-Means聚类算法,详细讲解了算法流程、代码实现、目标函数以及如何选择合适的K值。K-Means算法依赖于初始中心点的选择,可能会导致局部最优解。通过肘部法则可确定最佳K值,以减少聚类误差平方和。
摘要由CSDN通过智能技术生成

K-Means(K-均值) 算法

聚类是一种无监督的学习(需要数据,但没有数据标签label,即目标类别是未知的), 它将相似的对象归到一个簇中, 将不相似对象归到不同簇中。相似这一概念取决于所选择的相似度计算方法. 简单来说就是将下图中全部黑色的点分成带有颜色的三类:

K-Means 是发现给定数据集的 K 个簇的聚类算法, 之所以称之为 K-均值是因为它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成。簇个数 K 是用户指定的, 每一个簇通过其质心(centroid), 即簇中所有点的中心来描述.。 也可以应用于图像分割, 把图像分成相似的区域如下:

K-means算法流程如下:

1.先在D中随机选取k个对象,作为k个簇的初始值;
2.对剩下的每个对象,按照欧氏距离最小,将它分配到与它距离最近的簇中;
3.重新计算每个簇的均值作为新的聚类中心;
4.重复2、3步骤,直到中心值不再变化或者变化很小时,聚类完成。

代码实现

# 导入相应的包
from copy import deepcopy
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

# 导入数据
data = pd.read_csv('data.csv')
print("Input Data and Shape")
print(data.shape)
data.head()
# 提取字段并可视化数据,使用scatter plot
f1 = data['V1'].values
f2 = data['V2'].values
X = np.array(list(zip(f1, f2)))
plt.scatter(X[:,0], X[:,1], c='black', s=6)
# K-means里的K值
k = 3
# 随机初始化K个中心点,把结果存储在C
C_x = np.random.randint(0, np.max(X), size=k)
C_y = np.random.randint(0, np.max(X), size=k)
C = np.array(list(zip(C_x, C_y)), dtype=np.float32)

print("初始化之后的中心点:")
print(C)

# 把中心点也展示一下
plt.scatter(X[:,0], X[:,1], c='#050505', s=7)
plt.scatter(C[:,0], C[:,1], marker='*', s=300, c='g')

初始化之后的中心点:
[[60. 1.]
[90. 43.]
[38. 17.]]

# 存储之前的中心点
C_old = np.zeros(C.shape)
clusters = np.zeros(len(X)) # K=3,  clusters = [0,0,1,2,1,0]

def dist(a, b, ax=1):
    return np.linalg.norm(a - b, axis=ax)

error = dist(C, C_old, None)
# 循环算法,直到收敛。收敛的条件就是,判断当前的中心点与之前的中心点之间有没有变化,没有变化距离就会变成0,然后抛出异常
while error != 0:
    # Assigning each value to its closest cluster
    for i in range(len(X)):
        distances = dist(X[i], C)
        cluster = np.argmin(distances)
        clusters[i] = cluster
    # 在计算新的中心点之前,先把旧的中心点存下来,以便计算距离
    C_old = deepcopy(C)
    # 计算新的中心点
    for i in range(k):
        points = [X[j] for j in range(len(X)) if clusters[j] == i]
        C[i] = np.mean(points, axis=0)
    error = dist(C, C_old, None)

colors &
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值