聚类算法Kmeans
聚类概念:
无监督问题:我们手里没有标签了
聚类:相似的东西分到一组
难点:如何评估,如何调参
K-MEANS算法基本概念:
要得到簇的个数,需要指定K值
质心:均值,即向量各维取平均即可
距离的度量:常用欧几里得距离和余弦相似度(先标准化)
欧氏距离就是点到点的距离
数据标准化是指当一组数据X浮动很小,另一组数据y浮动很大时,机器会认为X没什么作用,y的作用很大,这是就要对y进行标准化,将它的值的范围变得和x差不多,
在泰坦尼克号案例中也曾进行数据标准化
优势:简单,快速,适合常规数据集
劣势:K值难确定
复杂度与样本呈线性关系(样本点很多就会很复杂,因为每次迭代都要计算一次每个点与中心点之间的距离)
很难发现任意形状的簇
K_means算法对初始值的要求很高,初始值不好,分出来的效果会很差.
使用Kmeans进行图像压缩
对老虎像素点进行聚类
每个像素点取值都在0-255,就是有256种可能,现在通过聚类,将256种可能性压缩一半,压缩成128种可能性
例子:
由于老虎图像太大,先用一张比较小的图片来测试
In