聚类和分类的区别:分类是已知类别的,聚类未知。
目录
3.关于k-mean算法的一些讨论,一般不同模型要使用对应的标准化公式去消除量纲的影响
1.算法流程图(避免查重)
2.评价
优点: (1)算法简单、快速。 (2)对处理大数据集,该算法是相对高效率的。 缺点: (1)要求用户必须事先给出要生成的簇的数目K。 (2)对初值敏感。 (3)对于孤立点数据敏感。
K-means++算法
1.概念
2.SPSS操作
3.关于k-mean算法的一些讨论,一般不同模型要使用对应的标准化公式去消除量纲的影响
系统聚类法(一般最常用)
1.流程图
2.分类准则
3.样品与样品间的距离
4.指标与指标间的常用距离
5.类与类之间的距离
类是样品的集合
1)最短距离
2)最长距离
3)组间平均连接法
4)组内平均连接法
5)重心法
例子
6.SPSS操作
单个解:可以设置k值,设置分成几类
7.聚类谱系图(树状图)
聚类的个数可以自己从图中决定。解决了k均值算法的第一个缺点
8.用图形估计聚类的数量:肘部法则
步骤
* 2/3个指标即二维三维才可以作图
写到论文:用肘部法则确定k值
DBSCAN算法
1.概念
2.伪代码
3.优缺点