本文通过A股股票案例,介绍什么是聚类(Clustering),Hierarchical聚类和K-means聚类有什么区别。
1.聚类
聚类就是把相同的东西放在一起的意思。聚类分析就是把一些抽象的对象,安装相似程度分类的方法。那么数据分析中为什么需要聚类分析呢?原因主要有以下几个方面。
我们需要高度可拓展聚类算法(Scalable clustering algorithms)解决大数据的问题。
我们需要处理各类数据的能力。例如我们需要一些算法,解决数值型,类别型或者二进制的数据。
高维度。聚类算法不但能够解决低维度问题,还能解决高维度的问题。
处理噪音数据。数据集里面会有噪音数据,缺失数据甚至一些错误的数据。有一些算法对这些数据很敏感,会导致结果的偏差。
解释性。聚类的结果应该能够被解释,并且能被人理解,对工作、学习和研究有价值。
2.Hierarchical聚类
Hierarchical的意思是等级。所以,这个方法是按等级把对象分解(Decomposition)的方法。安装分解的方法,Hierarchical聚类又可以分为两类:
凝聚(Agglomerative)法:这是一种自下而上(Bottom-up)的方法。我们先把各对象组成“小团体”,然后不断地把其他对象或者“小团体”加入进来。这个过程反复进行,一直到全部对象都加入。这个是凝聚法系统树图(Agglomera