学习来源:清风老师
我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测;也可以探究不同类之间的相关性和主要差异。
分类是已知类别的,聚类未知。
K-means聚类算法
算法流程
- 指定需要划分的簇[cù]的个数K值(类的个数)
- 随机地选择K个数据对象作为初始的聚类中心(不一定要是我们的样本点)
- 计算其余的各个数据对象到这K个初始聚类中心的距离,把数据对象划归到距离它最近的那个中心所处在的簇类中
- 调整新类并且重新计算出新类的中心
- 循环步骤三和四,看中心是否收敛(不变),如果收敛或达到迭代次数则停止循环
- 结束
K-means算法评价
优点:
- 算法简单、快速。
- 对处理大数据集,该算法是相对高效率的。
缺点:
- 要求用户必须事先给出要生成的簇的数目K。
- 对初值敏感。
- 对于孤立点数据