唐宇迪《python数据分析与机器学习实战》学习笔记
19聚类算法-Kmeans;20聚类算法-DBSCAN;21案例实战:聚类实践
一、K-Means算法
右边图原始数据集上没有标色,这里把类型相似的分在一块形成了3团簇。
1.K-Means算法基本概念
最简单也是最实用的算法
大多时候使用欧式距离,加入X轴为(0.01、0.04、0.03) y轴为(105、161、261)那么X轴无论怎么算数据之间的差异性都很小,Y轴差异大,潜意思认为Y轴决定相似度了,因此基本所有情况下要进行标准化,例如归一化,让XY轴的范围都是(0-1)。
优化:让簇里面所有样本点到中心点的距离的和最小,越小代表越相似。
2. 工作流程
(a)无监督问题,最开始不知道点属于那些簇;(b)例如k=2就随机初始化2个点,算其他点到这两个点的距离
(c)大量迭代后,根据距离划分为两堆;(d)所以更新衡量依据,更新质心,根据所有点算出他们的新质心;
(e)更新后重新计算,遍历所有点到新质心距离,重新划分,重新再计算质心。(f)再遍历计算。。。
多次循环指导不再变化了
然后登陆网址:https://www.naftaliharris.com/blog/visualizing-k-means-clustering/,看一下这个算法的可视化展示
便于理解这个算法。
3.进行图像压缩小例子
from skimage import io
from sklearn.cluster import KMeans
import numpy as np
image = io.imread('test2.jpg')
io.imshow(image)
io.show()
# print(image.shape) #(154, 160, 3) 每个点由3个元素组成
rows = image.shape[0] #行列输出看一下有多少个像素点
cols = image.shape[1]
#原来图像是一个彩色图,h*w*c,有一个通道C,现在换成 样本*c
image = image.reshape(image.shape[0]*image.shape[1],3)
kmeans = KMeans(n_clusters = 128, n_init=10, max_iter=200)
#把集合分为个簇
kmeans.fit(image)
clusters = np.asarray(kmeans.cluster_centers_,dtype=np.uint8) #点标签
labels = np.asarray(kmeans.labels_,dtype=np.uint8 )
labels = labels.reshape(rows,cols); #为了组成图像又reshape回去
print (clusters.shape)
np.save('codebook_test.npy',clusters)
io.imsave('compressed_test.jpg',labels)
image = io.imrea