聚类分析
聚类分析是机器学习算法中同数据分类算法同样重要的算法,数据聚类分析是一种无监督的学习方法。聚类和分类不同的是,它不需要通过语料库训练,更不需要早期的人工标注类型,具备较高的灵活性和极高的自动化处理能力。
数据聚类算法可以划分为结构性或者分散性两种算法类型,是算法实现的不同方式;从计算方式而言,可拆分为自上而下和自下而上两种计算方式
- 自上而下的分析方法:首先把所有样本视为一个聚类,然后不断地从这个大的聚类中分离初更多小聚类,直到不能再继续分离为止。
- 自下而上的分析方法: 将局部样本自成一聚类,然后通过不断地两两之间合并,最终形成几个大的聚类。
基于系统聚类法
系统聚类(systematic cluster method)又称作层次聚类,系统聚类的方法是通过计算将聚类较近的样本聚成一类,距离较远的样本后聚成一类,通过不断计算样本之间距离,最终每个样本都能找到合适的聚簇。
按聚类的过程分析,可以将聚类划分为系统聚类、逐步聚类法、有序样品聚类法、模糊聚类法以及分隔聚类法等。
- 系统聚类法: 主要用于对小数据量的样本间聚类及对指标聚类
- 逐步聚类法:也称快速聚类法,主要用于对大数据样本之间的聚类。它首先定义样本聚簇的中心点,这些初始中心点可以随机产生也可以通过一定规则产生。把其他样本数据与初始化的中心点进行距离计算,离样本数据越近的中心点,则该样本数据属于该中心点所在的聚簇,然后通过聚簇内的距离计算更新当前聚簇的中心点,不断迭代上述过程直到聚簇中心不再改变。
- 有序样品聚簇法: 用于对有序的数据样本进行聚类,