19聚类算法-Kmeans ;20聚类算法-DBSCAN;21案例实战:聚类实践

唐宇迪《python数据分析与机器学习实战》学习笔记
19聚类算法-Kmeans;20聚类算法-DBSCAN;21案例实战:聚类实践

一、K-Means算法

在这里插入图片描述
右边图原始数据集上没有标色,这里把类型相似的分在一块形成了3团簇。

1.K-Means算法基本概念

最简单也是最实用的算法
在这里插入图片描述
大多时候使用欧式距离,加入X轴为(0.01、0.04、0.03) y轴为(105、161、261)那么X轴无论怎么算数据之间的差异性都很小,Y轴差异大,潜意思认为Y轴决定相似度了,因此基本所有情况下要进行标准化,例如归一化,让XY轴的范围都是(0-1)。
优化:让簇里面所有样本点到中心点的距离的和最小,越小代表越相似。

2. 工作流程

(a)无监督问题,最开始不知道点属于那些簇;(b)例如k=2就随机初始化2个点,算其他点到这两个点的距离
(c)大量迭代后,根据距离划分为两堆;(d)所以更新衡量依据,更新质心,根据所有点算出他们的新质心;
(e)更新后重新计算,遍历所有点到新质心距离,重新划分,重新再计算质心。(f)再遍历计算。。。
多次循环指导不再变化了
在这里插入图片描述
在这里插入图片描述
然后登陆网址:https://www.naftaliharris.com/blog/visualizing-k-means-clustering/,看一下这个算法的可视化展示
便于理解这个算法。
在这里插入图片描述

3.进行图像压缩小例子

from skimage import io
from sklearn.cluster import KMeans
import numpy as np

image = io.imread('test2.jpg')
io.imshow(image)
io.show()

# print(image.shape) #(154, 160, 3)  每个点由3个元素组成
rows = image.shape[0] #行列输出看一下有多少个像素点
cols = image.shape[1]

#原来图像是一个彩色图,h*w*c,有一个通道C,现在换成 样本*c
image = image.reshape(image.shape[0]*image.shape[1],3)
kmeans = KMeans(n_clusters = 128, n_init=10, max_iter=200)
#把集合分为个簇
kmeans.fit(image)

clusters = np.asarray(kmeans.cluster_centers_,dtype=np.uint8) #点标签
labels = np.asarray(kmeans.labels_,dtype=np.uint8 )  
labels = labels.reshape(rows,cols); #为了组成图像又reshape回去

print (clusters.shape)
np.save('codebook_test.npy',clusters)    
io.imsave('compressed_test.jpg',labels)

image = io.imrea
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值