聚类算法
k-means聚类
相比于之前的线性回归和逻辑回归,k-means聚类算法属于无监督问题,因为没有标签,所以评估比较困难。
k-means的基本概念
- 要得到簇的个数,需要指定k值
- 质心:均值,即向量各维的平均
- 距离的度量:常用欧氏距离得距离和余弦相似度(先标准化)
- 优化目标:每一簇内所有点离质心的距离最短。
优点和缺点:
优点,简单,快速,适合常规数据集。
缺点,k难确定,复杂度与样本呈线性关系,很难发现任意形状的簇(就是形状比较随意的那种)。
不稳定结果
k-means每次分类的结果不一定完全一样
评价指标
- **inertia:**所有样本点到各自所属类的距离的平方,越小越好。可以设置多次迭代,计算inertia,取inertia最小聚类结果。
- 轮廓系数
轮廓系数的参数有两个:
(1)ai:计算样本i到同簇其他样本的平均距离ai,ai乘坐样本的簇内不相似度,越小越好
(2)bi:计算样本i到其他簇的所有样本的距离,称为样本与簇Cj的不相似度,bi是其中所有距离的最小值,称为样本的簇间不相似度。
结论