目录
一、KMEANS算法概述
聚类概念
- 无监督问题:我们手里没有标签了
- 聚类:相似的东西分到一组
- 难点:如何评估,如何调参
k-means算法
- 基本概念:要得到簇的个数,需要指定K值
- 质心:均值,即向量各维取平均即可
- 距离的度量:常用欧氏距离和余弦相似度(先标准化)
- 优化目标:
二、KMEANS工作流程
工作流程
优缺点
优点
- 简单,快速,适合常规数据集
缺点
- K值难确定
- 复杂度与样本呈线性关系
- 很难发现任意形状的簇 ,聚类效果不好。
三、KMEANS迭代可视化展示
可视化展示
Visualizing K-Means Clustering
对初始值影响大