无监督学习1–聚类算法
什么是无监督学习?
无监督学习是指在未加标签的数据中,根据数据之间本身的属性特征和关联性对数据进行区分,相似相近或关联性强的数据放在一起,而不相似不相近、关联性不强的数据不放在一起。
无监督学习的本质是:利用无标签的数据学习数据的分布或数据与数据之间的关系。
无监督学习最常应用的场景是部分降维算法、聚类算法和关联算法。
关于有监督学习和无监督学习
在有监督学习中,例如分类问题,要求事先必须明确知道各个类别的信息,其建立的前提是所有待分类项都有一个类别与之对应。但实际上分类问题可能获取到的数据记录对应的类别信息无法明确,尤其是处理海量数据时,如果通过预处理对数据进行打标,以满足分类算法的要求,代价非常大。
有监督学习中最常见的是分类问题,而无监督学习中最常见的是聚类问题,聚类问题不依赖预定义的类和类标号的训练实例。关注事物本身的特征分析。
什么是聚类算法?
1.聚类分析
聚类分析是分析研究对象(样品或变量)如何按照多个方面的特征进行综合分类的一种多元统计方法,它是根据物以类聚的思想将相似的样品(或变量)归为一类。
把对象分为不同的类别,类别是依据数据的特征确定的。
把相似的东西放在一起,类别内部的差异尽可能小,类别之间的差异尽可能的大。
聚类分析的作用:
作为单独过程ÿ